机器学习面试题（上）

最新推荐文章于 2024-09-24 14:32:27 发布

一页孤沙

最新推荐文章于 2024-09-24 14:32:27 发布

阅读量8.5k

点赞数 1

分类专栏：机器学习面试题文章标签：机器学习面试题

机器学习面试题专栏收录该内容

1 篇文章 1 订阅

订阅专栏

人工智能一直助力着科技发展，新兴的机器学习正推动着各领域的进步。如今，机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统，机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。

1.以下哪一种方法最适合在n（n>1）维空间中做异常点检测。

A 正态分布图
B 盒图
C 马氏距离
D 散点图

答案：C
马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是关联的)。因此马氏距离常用于多元异常值检测。

2. 逻辑回归与多元回归分析有哪些不同？

A. 逻辑回归预测某事件发生的概率
B. 逻辑回归有较高的拟合效果
C. 逻辑回归回归系数的评估
D. 以上全选
答案：D
逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般来说，逻辑回归对测试数据有着较好的拟合效果；建立逻辑回归模型后，我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。

3 bootstrap 数据的含义是：
A. 有放回的从整体M中抽样m个特征
B. 无放回的从整体M中抽样m个特征
C. 有放回的从整体N中抽样n个样本
D. 无放回的从整体N中抽样n个样本
答案：C
如果我们没有足够的数据来训练我们的算法，我们应该通过重复随机采样增加训练集合的大小

4."过拟合是有监督学习的挑战，而不是无监督学习"以上说法是否正确：
A. 正确
B. 错误
答案：B
我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数

5.下列表述中，在k-fold交叉验证中关于选择K说法正确的是：
A. 较大的K并不总是好的，选择较大的K可能需要较长的时间来评估你的结果
B. 相对于期望误差来说，选择较大的K会导致低偏差（因为训练folds会变得与整个数据集相似）
C. 在交叉验证中通过最小化方差法来选择K值
D. 以上都正确
答案：D

较大的K意味着更小的偏差（因为训练folds的大小接近整个dataset）和更多的运行时间（极限情况是：留一交叉验证）。当选取K值的时候，我们需要考虑到k-folds 准确度的方差。

6. 一个回归模型存在多重共线问题。在不损失过多信息的情况下，你该怎么做：
A. 移除共线的两个变量
B. 移除共线的两个变量其中一个
C. 我们可以计算方差膨胀因子（variance inflation factor)来检查存在的多重共线性并采取相应的措施
D. 移除相关变量可能会导致信息的丢失，为了保留这些变量，我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚
答案：B C D
为了检查多重共线性，我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量(阈值根据情况设定),除此之外，我们可以使用VIF方法来检查当前存在的共线变量。VIF<=4表明没有多种共线，VIF>=10表明有着严重的多重共线性。当然，我们也可以使用公差(tolerance)作为评估指标。
但是,移除相关变量可能导致信息的丢失，为了保留这些变量，我们可以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音，使得变量之间存在差异。但增加噪音可能影响准确度，因此这种方法应该小心使用。

7.评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题：
A. 减少模型中特征的数量
B. 向模型中增加更多的特征
C. 增加更多的数据
D. B 和 C
E. 以上全是
答案：B
高偏差意味这模型不够复杂(欠拟合)，为了模型更加的强大，我们需要向特征空间中增加特征。增加样本能够降低方差

8. 在构建一个基于决策树模型时，使用信息增益information gain作为决策树节点属性选择的标准，以下图片中哪一个属性具信息增益最大：
A. Outlook
B. Humidity
C. Windy
D. Temperature
答案：A
信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值，计算各信息增益即可。

9. 在决策树中，用作分裂节点的information gain说法正确的是
A. 较小不纯度的节点需要更多的信息来区分总体
B. 信息增益可以使用熵得到
C. 信息增益更加倾向于选择有较多取值的属性
答案 B C
使用信息增益作为决策树节点属性选择的标准，由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果，这将导致决策树算法偏向选择具有较多分枝的属性。

10. 一个SVM存在欠拟合问题，下面怎么做能提高模型的性能:
A. 增大惩罚参数C
B. 减小惩罚参数C
C. 减小核函数系数(gamma值)
答案： A
C >0称为惩罚参数，是调和二者的系数，C值大时对误差分类的惩罚增大，C值小时对误差分类的惩罚减小。当C越大，趋近无穷的时候，表示不允许分类误差的存在，margin越小，容易过拟合；当C趋于0时，表示我们不再关注分类是否正确，只要求margin越大，容易欠拟合

11.支持向量机模型，选择RBF函数作为kernel后，对gamma（函数自带参数）画散点图，如果忘记在图上标记gamma值，以下哪一个选项可以解释下图的gamma值（图1,2,3从左向右，gamma值分别为g1、g2、g3）？

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

随着gamma的增大，存在对于测试集分类效果差而对训练分类效果好的情况，并且容易泛化误差出现过拟合，因此C选项正确。

12. 做一个二分类预测问题，先设定阈值为0.5，概率大于等于0.5的样本归入正例类（即1），小于0.5的样本归入反例类（即0）。然后，用阈值n（n>0.5）重新划分样本到正例类和反例类，下面哪一种说法正确是（）

1.增加阈值不会提高召回率
2..增加阈值会提高召回率
3..增加阈值不会降低查准率
4.增加阈值会降低查准率

A. 1

B. 2