机器学习笔试题精选（三）

最新推荐文章于 2024-06-11 17:35:02 发布

c123_sensing

最新推荐文章于 2024-06-11 17:35:02 发布

阅读量5.7k

点赞数 4

分类专栏： machine learning

本文链接：https://blog.csdn.net/c123_sensing/article/details/81536661

版权

本文提供了一系列机器学习笔试题目，涉及回归与相关性区别、偏斜度计算、Anscombe's quartet、过拟合影响因素、Ridge回归正则化参数对偏差和方差的影响等知识点，旨在考察机器学习基础理论理解。

摘要由CSDN通过智能技术生成

机器学习是一门理论性和实战性都比较强的技术学科。在应聘机器学习相关工作岗位时，我们常常会遇到各种各样的机器学习问题和知识点。为了帮助大家对这些知识点进行梳理和理解，以便能够更好地应对机器学习笔试包括面试。

Q1. 关于“回归（Regression）”和“相关（Correlation）”，下列说法正确的是？注意：x 是自变量，y 是因变量。

A. 回归和相关在 x 和 y 之间都是互为对称的

B. 回归和相关在 x 和 y 之间都是非对称的

C. 回归在 x 和 y 之间是非对称的，相关在 x 和 y 之间是互为对称的

D. 回归在 x 和 y 之间是对称的，相关在 x 和 y 之间是非对称的

答案：C

解析：相关（Correlation）是计算两个变量的线性相关程度，是对称的。也就是说，x 与 y 的相关系数和 y 与 x 的相关系数是一样的，没有差别。

回归（Regression）一般是利用特征 x 预测输出 y，是单向的、非对称的。

Q2. 仅仅知道变量的均值（Mean）和中值（Median），能计算的到变量的偏斜度（Skewness）吗？

A. 可以

B. 不可以

答案：B

解析：偏斜度是对统计数据分布偏斜方向及程度的度量。偏斜度是利用 3 阶矩定义的，其计算公式如下：

$Sc=∑(xi−xˉ)3mS_c=\frac{\sum(x_i-\bar x)^3}{m}$

其中，n 是样本数量。统计数据的频数分布有的是对称的，有的是不对称的，即呈现偏态。在偏态分布中，当偏斜度为正值时，分布正偏，即众数位于算术平均数的左侧；当偏斜度为负值时，分布负偏，即众数位于算术平均数的右侧。

我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏态还是右偏态，但要度量分布偏斜的程度，就需要计算偏斜度了。

Q3. 假设有 n 组数据集，每组数据集中，x 的平均值都是 9，x 的方差都是 11，y 的平均值都是 7.50，x 与 y 的相关系数都是 0.816，拟合的线性回归方程都是 y = 3.00 + 0.500*x。那么这 n 组数据集是否一样？

A. 一样

B. 不一样

C. 无法确定

答案：C

解析：这里需要知道的是 Anscombe’s quartet。1973年，统计学家F.J. Anscombe 构造出了四组奇特的数据。这四组数据中，x 值的平均数都是 9.0，y 值的平均数都是 7.5；x 值的方差都是 10.0，y值的方差都是 3.75；它们的相关度都是 0.816，线性回归线都是 y=3+0.5x。单从这些统计数字上看来，四组数据所反映出的实际情况非常相近，而事实上，这四组数据有着天壤之别，如下图所示：

Q4. 观察样本次数如何影响过拟合（多选）？注意：所有情况的参数都保持一致。

A. 观察次数少，容易发生过拟合

B. 观察次数少，不容易发生过拟合

C. 观察次数多，容易发生过拟合

D. 观察次数多，不容易发生过拟合

答案：AD

解析：如果样本观察次数较少，且样本数量较少，通过提高模型复杂度，例如多项式阶数，很容易对所有样本点都拟合的非常好，造成过拟合。但是，如果观察次数多，样本更具有代表性，这时候，即使模型复杂，也不容易发生过拟合，得到的模型能够较真实地反映真实的数据分布。

Q5. 假如使用一个较复杂的回归模型来拟合样本数据，使用 Ridge 回归，调试正则化参数 λ，来降低模型复杂度。若 λ 较大时，关于偏差（bias）和方差（variance），下列说法正确的是？

A. 若 λ 较大时，偏差减小，方差减小

B. 若 λ 较大时，偏差减小，方差增大

C. 若 λ 较大时，偏差增大，方差减小

D. 若 λ 较大时，偏差增大，方差增大

答案：C

解析：若 λ 较大时，意味着模型复杂度较低，这时候容易发生欠拟合，对应偏差增大，方差减小。做个简单总结：

λ 较小：偏差减小，方差增大，容易发生过拟合
λ 较大：偏差增大，方差减小，容易发生欠拟合

Q6. 假如使用一个较复杂的回归模型来拟合样本数据，使用 Ridge 回归，调试正则化参数 λ，来降低模型复杂度。若 λ 较小时，关于偏差（bias）和方差（variance），下列说法正确的是？

A. 若 λ 较小时，偏差减小，方差减小

B. 若 λ 较小时，偏差减小，方差增大

C. 若 λ 较小时，偏差增大，方差减小

D. 若 λ 较小时，偏差增大，方差增大

答案：B

解析：见 Q5。

Q7. 下列关于 Ridge 回归，说法正确的是（多选）？

A. 若 λ=0，则等价于一般的线性回归

B. 若 λ=0，则不等价于一般的线性回归

C. 若 λ=+∞，则得到的权重系数很小，接近于零

D. 若 λ=+∞，则得到的权重系数很大，接近与无穷大

答案：AC

解析：若 λ=0，即没有正则化项，等价于一般的线性回归，可以使用

最低0.47元/天解锁文章

c123_sensing

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔试题精选（三）

机器学习是一门理论性和实战性都比较强的技术学科。在应聘机器学习相关工作岗位时，我们常常会遇到各种各样的机器学习问题和知识点。为了帮助大家对这些知识点进行梳理和理解，以便能够更好地应对机器学习笔试包括面试。Q1. 关于“回归（Regression）”和“相关（Correlation）”，下列说法正确的是？注意：x 是自变量，y 是因变量。A. 回归和相关在 x 和...
复制链接

扫一扫

专栏目录