ML一些题目

1. ”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, AUC达到了0.98,  我们可以下的结论是 : C

A. 模型AUC还不够高,需要0.99以上才符合预期

B. 模型已经够好了,不需要做调优了。

C. 模型样本需要做缩减,特征或者评估方法需要改进

D. 以上都不对

2. 对于随机森林和GradientBoosting Trees, 下面说法正确的是: (B)

A.在随机森林的单个树中, 树和树之间是有依赖的, 而gbdt 中的单个树之间是没有依赖的

B.这两个模型都使用随机特征子集, 来生成许多单个的树。

C.我们可以并行地生成gbdt单个树, 因为它们之间是没有依赖的,gbdt 训练模型的表现总是比随机森林好

D. GradientBoosting Trees通常比随机深林速度快。

3. 以下说法正确的是 :C

A. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的

B. 如果增加模型复杂度, 那么模型的测试错误率总是会降低

C. 如果增加模型复杂度, 那么模型的训练错误率总是会降低

D. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

4. 对应GradientBoosting tree 算法, 以下说法正确的是 :A,C

A.当增加最小样本分裂个数,我们可以抵制过拟合

B.当增加最小样本分裂个数,会导致过拟合

C.当我们减少训练单个学习器的叶子数量,我们可以降低variance

D.当我们减少训练单个学习器的叶子数量,我们可以降低bias

6.  logistic regression模型训练中如果发现模型

训练集合效果太差,可以用哪些方法?(AD

测试集合效果太差,可以用哪些方法?(BC

A. 换随机森林或者gbdt

B. 增大数据集合

C. 加L1或者L2正则

D. 做特征工程,增加特征或者特征组合

7.. 有A,B,C三个门,其中有一扇后面是黄金,另两扇后面是空的。 你首先选择了B,现在的其中一扇被翻开,这个代号是A为空的,你该不该换成C?为什么?

   答:换。概率不同一个1/3,一个2/3

8. 世界上每十万

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值