机器学习能力自测题—看看你的机器学习知识能打几分？不容错过的机器学习试题与术语_6.对于神经网络的说法,下面正确的是(多选):a增加神经网络层数,可能会增加测试数据-CSDN博客

本文链接：https://blog.csdn.net/hfcaoguilin/article/details/121698686

一直苦于没有办法自测一下机器学习知识掌握程度，最近看到一篇Ankit Gupta写的博客：Solutions for Skilltest Machine Learning : Revealed。有40题机器学习自测题，马上可以看看你的机器学习知识能打几分？顺便还能查漏补缺相关术语，以及SVM, 隐马尔科夫, 特征选择, 神经网络, 线性回归等众多知识点.

以下是试题, 附答案：

Q1：在一个n维的空间中，最好的检测outlier(离群点)的方法是：

A. 作正态分布概率图
B. 作盒形图
C. 马氏距离
D. 作散点图

答案：C

马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。更多请详见：这里和”各种距离“。

Q2：对数几率回归（logistics regression）和一般回归分析有什么区别？：

A. 对数几率回归是设计用来预测事件可能性的
B. 对数几率回归可以用来度量模型拟合程度
C. 对数几率回归可以用来估计回归系数
D. 以上所有

答案：D

A: 这个在我们第八期#8提到过，对数几率回归其实是设计用来解决分类问题的

B: 对数几率回归可以用来检验模型对数据的拟合度

C: 虽然对数几率回归是用来解决分类问题的，但是模型建立好后，就可以根据独立的特征，估计相关的回归系数。就我认为，这只是估计回归系数，不能直接用来做回归模型。

Q3：bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）

A. 有放回地从总共M个特征中抽样m个特征
B. 无放回地从总共M个特征中抽样m个特征
C. 有放回地从总共N个样本中抽样n个样本
D. 无放回地从总共N个样本中抽样n个样本

答案：C

需要集成学习基础知识，详情请见：bootstrap, boosting, bagging 几种方法的联系

Q4：“过拟合”只在监督学习中出现，在非监督学习中，没有“过拟合”，这是：

A. 对的
B. 错的

答案：B

我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数（adjusted rand score）

Q5：对于k折交叉验证, 以下对k的说法正确的是 :

A. k越大, 不一定越好, 选择大的k会加大评估时间
B. 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
C. 在选择k时, 要最小化数据集之间的方差
D. 以上所有

答案：D

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

如果不明白bias和variance的概念, 务必参考下面链接:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning
Understanding the Bias-Variance Tradeoff

Q6：回归模型中存在多重共线性, 你如何解决这个问题？

A. 去除这两个共线性变量
B. 我们可以先去除一个共线性变量
C. 计算VIF(方差膨胀因子), 采取相应措施
D. 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归.

以下哪些是对的:

A. 1
B. 2
C. 2和3
D. 2, 3和4

答案: D

解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.

我们也可以用岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果.

Q7：模型的高bias是什么意思, 我们如何降低它 ?

A. 在特征空间中减少特征
B. 在特征空间中增加特征
C. 增加数据点
D. B和C

E. 以上所有

答案: B

bias太高说明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 !

如果不明白bias和variance的概念, 务必参考下面链接:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning
Understanding the Bias-Variance Tradeoff

Q8：训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个:

在这里插入图片描述

A. Outlook
B. Humidity
C. Windy
D. Temperature

答案: A

信息增益, 增加平均子集纯度, 详细研究, 请戳下面链接:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)
Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

Q9：对于信息增益, 决策树分裂节点, 下面说法正确的是:

A. 纯度高的节点需要更多的信息去区分
B. 信息增益可以用”1比特-熵”获得
C. 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
A. 1
B. 2
C.2和3
D. 所有以上

答案: C

详细研究, 请戳下面链接:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)
Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

Q10：如果SVM模型欠拟合, 以下方法哪些可以改进模型 :

A. 增大惩罚参数C的值
B. 减小惩罚参数C的值
C. 减小核系数(gamma参数)

答案: A

如果SVM模型欠拟合, 我们可以调高参数C的值, 使得模型复杂度上升.

LibSVM中，SVM的目标函数是:
在这里插入图片描述
而, gamma参数是你选择径向基函数作为kernel后,该函数自带的一个参数.隐含地决定了数据映射到新的特征空间后的分布.
gamma参数与C参数无关. gamma参数越高, 模型越复杂.

Q11：下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是 :

在这里插入图片描述

A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

参考Q10题

Q12：假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 :

A. 模型分类的召回率会降低或不变
B. 模型分类的召回率会升高
C. 模型分类准确率会升高或不变
D. 模型分类准确率会降低
A. 1
B. 2
C.1和3
D. 2和4

E. 以上都不是

答案: C

这篇文章讲述了阈值对准确率和召回率影响 :

Confidence Splitting Criterions Can Improve Precision And Recall in Random Forest Classifiers

Q13：”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是 :

A. 模型预测准确率已经很高了, 我们不需要做什么了
B. 模型预测准确率不高, 我们需要做点什么改进模型
C. 无法下结论
D. 以上都不对

答案: B

99%的预测准确率可能说明, 你预测的没有点进去的人很准确 (因为有99%的人是不会点进去的, 这很好预测). 不能说明你的模型对点进去的人预测准确, 所以, 对于这样的非平衡数据集, 我们要把注意力放在小部分的数据上, 即那些点击进去的人.

详细可以参考这篇文章: article

Q14：使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少 :

在这里插入图片描述

A. 0%
B. 100%
C. 0% 到 100%
D. 以上都不是

答案: B

knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%

Q15：我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 :

A. 增加树的深度
B. 增加学习率 (learning rate)
C. 减少树的深度
D. 减少树的数量

答案: C

增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.
决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)
决策树只有一棵树, 不是随机森林.

Q16：对于神经网络的说法, 下面正确的是 :

增加神经网络层数, 可能会增加测试数据集的分类错误率
减少神经网络层数, 总是能减小测试数据集的分类错误率
增加神经网络层数, 总是能减小训练数据集的分类错误率

A. 1
B. 1 和 3
C. 1 和 2
D. 2

答案: A

深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化能力, 即, 训练数据集和测试数据集都表现得更好. 但是, 在这篇文献中, 作者提到, 更多的层数, 也不一定能保证有更好的表现. 所以, 不能绝对地说层数多的好坏, 只能选A

Q17：假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分 :

A. 设C=1
B. 设C=0
C. 设C=无穷大
D. 以上都不对

答案: C

C无穷大保证了所有的线性不可分都是可以忍受的.

Q18：训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类:

A. 正确
B. 错误

答案: A

SVM模型中, 真正影响决策边界的是支持向量

Q19：以下哪些算法, 可以用神经网络去构造:

KNN
线性回归
对数几率回归

A. 1和 2
B. 2 和 3
C. 1, 2 和 3
D. 以上都不是

答案: B

KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
最简单的神经网络, 感知器, 其实就是线性回归的训练
我们可以用一层的神经网络构造对数几率回归

Q20：请选择下面可以应用隐马尔科夫(HMM)模型的选项:

A. 基因序列数据集
B. 电影浏览数据集
C. 股票市场数据集
D. 所有以上

答案: D

只要是和时间序列问题有关的 , 都可以试试HMM

Q21：我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :

A. 我们随机抽取一些样本, 在这些少量样本之上训练
B. 我们可以试用在线机器学习算法
C. 我们应用PCA算法降维, 减少特征数
D. B 和 C

E. A 和 B

F. 以上所有

答案: F

Q22：我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

使用前向特征选择方法
使用后向特征排除方法
我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.
查看相关性表, 去除相关性最高的一些特征

A. 1 和 2
B. 2, 3和4
C. 1, 2和4
D. All

答案: D

前向特征选择方法和后向特征排除方法是我们特征选择的常用方法
如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.
用相关性的度量去删除多余特征, 也是一个好方法
所有D是正确的

Q23：对于随机森林和GradientBoosting Trees, 下面说法正确的是:

在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的.
这两个模型都使用随机特征子集, 来生成许多单个的树.
我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好

A. 2
B. 1 and 2
C. 1, 3 and 4
D. 2 and 4

答案: A

随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 所有说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系.
这两个模型都使用随机特征子集, 来生成许多单个的树.
所有A是正确的