机器学习笔试题精选知识点

最新推荐文章于 2022-09-14 21:45:22 发布

KyuerYang

最新推荐文章于 2022-09-14 21:45:22 发布

阅读量325

点赞数

本文链接：https://blog.csdn.net/weixin_41813772/article/details/83111028

版权

参考：

https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/

https://blog.csdn.net/red_stone1?t=1

1.留一法，简单来说就是假设有 N 个样本，将每一个样本作为测试样本，其它 N-1 个样本作为训练样本。这样得到 N 个分类器，N 个测试结果。用这 N个结果的平均值来衡量模型的性能。

2.线性回归模型计算损失函数，例如均方差损失函数时，使用的都是 vertical offsets。perpendicular offsets 一般用于主成分分析（PCA）中。如图所示：

3.偏差（bias）可以看成模型预测与真实样本的差距，想要得到 low bias，就得复杂化模型，但是容易造成过拟合。方差（variance）可以看成模型在测试集上的表现，想要得到 low variance，就得简化模型，但是容易造成欠拟合。

如果模型过于简单，通常会造成欠拟合，伴随着高偏差、低方差；如果模型过于复杂，通常会造成过拟合，伴随着低偏差、高方差。

3. 如果数据量较少，容易在假设空间找到一个模型对训练样本的拟合度很好，容易造成过拟合，该模型不具备良好的泛化能力。

如果假设空间较小，包含的可能的模型就比较少，也就不太可能找到一个模型能够对样本拟合得很好，容易造成高偏差、低方差，即欠拟合。

4.Lasso 回归其实就是在普通线性回归的损失函数的基础上增加了个 β 的约束，第一范数约束下，β 更有可能被约束成 0，因此，Lasso 回归适用于样本数量较少，特征维度较大的情形，便于从较多特征中进行特征选择。例如 DNA 数据，特征维度很大，我们只希望通过 Lasso 回归找出与某些疾病有关的 DNA 片段，Lasso 回归会让一部分回归系数刚好可以被约束为 0，起到特征选择的效果。

5. Ridge 回归又称岭回归，它是普通线性回归加上 L2 正则项，用来防止训练过程中出现的过拟合。L2 正则化效果，限定区域是圆，这样，得到的回归系数为 0 的概率很小，很大概率是非零的。因此，比较来说，Lasso 回归更容易得到稀疏的回归系数，有利于舍弃冗余或无用特征，适用于特征选择。

6. 如果在线性回归模型中增加一个特征变量，下列可能发生的是（多选）？

A. R-squared 增大，Adjust R-squared 增大 B. R-squared 增大，Adjust R-squared 减小 C. R-squared 减小，Adjust R-squared 减小 D. R-squared 减小，Adjust R-squared 增大

**答案**：AB *R-Squared 反映的是大概有多准，因为，随着样本数量的增加，R-Squared 必然增加，无法真正定量说明准确程度，只能大概定量。单独看 R-Squared，并不能推断出增加的特征是否有意义。通常来说，增加一个特征特征，R-Squared 可能变大也可能保持不变，两者不一定呈正相关。如果使用校正决定系数（Adjusted R-Squared），增加一个特征变量，如果这个特征有意义，Adjusted R-Square 就会增大，若这个特征是冗余特征，Adjusted R-Squared 就会减小。分子部分表示真实值与预测值的平方差之和，类似于均方差 MSE；分母部分表示真实值与均值的平方差之和，类似于方差 Var。

均方误差：MSE=1m∑i=1m(y(i)−y^(i))2

评价均方误差：MAE=1m∑i=1m|y(i)−y^(i)|

7.求解线性回归系数，我们一般最常用的方法是梯度下降，利用迭代优化的方式。除此之外，还有一种方法是使用正规方程，原理是基于最小二乘法。下面对正规方程做简要的推导。

已知线性回归模型的损失函数 Ein 为：

Ein=1m(XW−Y)2
Ein=1m(XW−Y)2
对 Ein 计算导数，令 ∇Ein=0：

∇Ein=2m(XTXW−XTY)=0
∇Ein=2m(XTXW−XTY)=0
然后就能计算出 W：W=(XTX)−1XTY
W=(XTX)−1XTY
以上就是使用正规方程求解系数 W 的过程。可以看到，正规方程求解过程不需要学习因子，也没有迭代训练过程。当特征数目很多的时候，XTXXTX 矩阵求逆会很慢，这时梯度下降算法更好一些。

8.相关系数 r=0 只能说明两个变量之间不存在线性关系，仍然可能存在非线性关系。

9.SSE 是平方误差之和（Sum of Squared Error）

10.

相关（Correlation）是计算两个变量的线性相关程度，是对称的。也就是说，x 与 y 的相关系数和 y 与 x 的相关系数是一样的，没有差别。

回归（Regression）一般是利用特征 x 预测输出 y，是单向的、非对称的。

11 偏斜度是对统计数据分布偏斜方向及程度的度量。偏斜度是利用 3 阶矩定义的，其计算公式如下：

Sc=∑(xi−x¯)3/m
Sc=∑(xi−x¯)3/m
其中，n 是样本数量。统计数据的频数分布有的是对称的，有的是不对称的，即呈现偏态。

在偏态分布中，当偏斜度为正值时，分布正偏，即众数位于算术平均数的左侧；当偏斜度为负值时，分布负偏，即众数位于算术平均数的右侧。

12.

λ 较小：偏差减小，方差增大，容易发生过拟合
λ 较大：偏差增大，方差减小，容易发生欠拟合

13.预测值与残差之间不应该存在任何函数关系，若存在函数关系，表明模型拟合的效果并不很好。对应在图中，若横坐标是预测值，纵坐标是残差，残差应表现为与预测值无关的随机分布。

14.

Ridge 回归是一般的线性回归再加上 L2 正则项，它具有封闭形式的解，可以基于最小二乘法求解。
Lasso 回归是一般的线性回归再加上 L1 正则项，L1 正则项使解是非线性的，没有封闭形式的解。

KyuerYang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔试题精选知识点

参考：https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/https://blog.csdn.net/red_stone1?t=11.留一法，简单来说就是假设有 N 个样本，将每一个样...
复制链接

扫一扫