1. ”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, AUC达到了0.98, 我们可以下的结论是 : (C)
A. 模型AUC还不够高,需要0.99以上才符合预期
B. 模型已经够好了,不需要做调优了。
C. 模型样本需要做缩减,特征或者评估方法需要改进
D. 以上都不对
2. 对于随机森林和GradientBoosting Trees, 下面说法正确的是: (B)
A.在随机森林的单个树中, 树和树之间是有依赖的, 而gbdt 中的单个树之间是没有依赖的
B.这两个模型都使用随机特征子集, 来生成许多单个的树。
C.我们可以并行地生成gbdt单个树, 因为它们之间是没有依赖的,gbdt 训练模型的表现总是比随机森林好
D. GradientBoosting Trees通常比随机深林速度快。
3. 以下说法正确的是 :(C)
A. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的
B. 如果增加模型复杂度, 那么模型的测试错误率总是会降低
C. 如果增加模型复杂度, 那么模型的训练错误率总是会降低
D. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习
4. 对应GradientBoosting tree 算法, 以下说法正确的是 :(A,C)
A.当增加最小样本分裂个数,我们可以抵制过拟合
B.当增加最小样本分裂个数,会导致过拟合
C.当我们减少训练单个学习器的叶子数量,我们可以降低variance
D.当我们减少训练单个学习器的叶子数量,我们可以降低bias
6. logistic regression模型训练中如果发现模型
训练集合效果太差,可以用哪些方法?(A,D)
测试集合效果太差,可以用哪些方法?(B,C)
A. 换随机森林或者gbdt
B. 增大数据集合
C. 加L1或者L2正则
D. 做特征工程,增加特征或者特征组合
7.. 有A,B,C三个门,其中有一扇后面是黄金,另两扇后面是空的。 你首先选择了B,现在的其中一扇被翻开,这个代号是A为空的,你该不该换成C?为什么?
答:换。概率不同一个1/3,一个2/3
8. 世界上每十万