红色石头的个人网站:redstonewill.com
上次 机器学习笔试题精选(一)中,我们详细解析了机器学习笔试 15 道题。今天,红色石头带大家继续“死磕”相关笔试题!
往期回顾:
Q1. 假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,…,X100)。现在,我们把其中一个特征值扩大 10 倍(例如是特征 X1),然后用相同的正则化参数对 Lasso 回归进行修正。
那么,下列说法正确的是?
A. 特征 X1 很可能被排除在模型之外
B. 特征 X1 很可能还包含在模型之中
C. 无法确定特征 X1 是否被舍弃
D. 以上说法都不对
答案: B
解析:Lasso 回归类似于线性回归,只不过它在线性回归的基础上,增加了一个对所有参数的数值大小约束,如下所示:
其中,t 为正则化参数。Lasso 回归其实就是在普通线性回归的损失函数的基础上增加了个 β 的约束。那么 β 的约束为什么要使用这种形式,而不使用 β 的平方约束呢?原因就在于第一范数的约束下,一部分回归系数刚好可以被约束为 0。这样的话,就达到了特征选择的效果。如下图所示:
MSE 指的是均方误差:
MAE 指的是评价绝对误差:
以上指标都可以用来评估线性回归模型。
Q6. 线性回归中,我们可以使用正规方程(Normal Equation)来求解系数。下列关于正规方程说法正确的是?
A. 不需要选择学习因子
B. 当特征数目很多的时候,运算速度会很慢
C. 不需要迭代训练
答案:ABC
解析:求解线性回归系数,我们一般最常用的方法是梯度下降,利用迭代优化的方式。除此之外,还有一种方法是使用正规方程,原理是基于最小二乘法。下面对正规方程做简要的推导。
已知线性回归模型的损失函数 Ein 为:
对 Ein 计算导数,令 ∇Ein=0:
然后就能计算出 W:
以上就是使用正规方程求解系数 W 的过程。可以看到,正规方程求解过程不需要学习因子,也没有迭代训练过程。当特征数目很多的时候, XTX X T X 矩阵求逆会很慢,这时梯度下降算法更好一些。
如果 XTX X T X 矩阵不可逆,是奇异矩阵怎么办呢?其实,大部分的计算逆矩阵的软件程序,都可以处理这个问题,也会计算出一个逆矩阵。所以,一般伪逆矩阵是可解的。
Q7. 如果 Y 是 X(X1,X2,…,Xn)的线性函数:
Y = β0 + β1X1 + β2X2 + ··· + βnXn
则下列说法正确的是(多选)?
A. 如果变量 Xi 改变一个微小变量 ΔXi,其它变量不变。那么 Y 会相应改变 βiΔXi。
B. βi 是固定的,不管 Xi 如何变化
C. Xi 对 Y 的影响是相互独立的,且 X 对 Y 的总的影响为各自分量 Xi 之和
答案:ABC
解析:这题非常简单,Y 与 X(X1,X2,…,Xn)是线性关系,故能得出 ABC 结论。
Q8. 构建一个最简单的线性回归模型需要几个系数(只有一个特征)?
A. 1 个
B. 2 个
C. 3 个
D. 4 个
答案:B
解析:最简单的线性回归模型,只有一个特征,即 Y = aX + b,包含 a 和 b 两个系数。
Q9. 下面两张图展示了两个拟合回归线(A 和 B),原始数据是随机产生的。现在,我想要计算 A 和 B 各自的残差之和。注意:两种图中的坐标尺度一样。
对损失函数求导,并令 ∇J=0,即可得到 XW-Y=0,即残差之和始终为零。
Q10. 如果两个变量相关,那么它们一定是线性关系吗?
A. 是
B. 不是
答案:B
解析:相关不一定是线性关系,也有可能是非线性相关。
Q11. 两个变量相关,它们的相关系数 r 可能为 0。这句话是否正确?
A. 正确
B. 错误
答案:A
解析:一般来说,相关系数 r=0 是两变量相互独立的必要不充分条件。也就是说,如果两个变量相互独立,那么相关系数 r 一定为 0,如果相关系数 r=0,则不一定相互独立。相关系数 r=0 只能说明两个变量之间不存在线性关系,仍然可能存在非线性关系。
那么,若两个变量相关,存在非线性关系,那么它们的相关系数 r 就为 0。
Q12. 加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是?
A. 训练样本准确率一定会降低
B. 训练样本准确率一定增加或保持不变
C. 测试样本准确率一定会降低
D. 测试样本准确率一定增加或保持不变
答案:B
解析:在模型中增加更多特征一般会增加训练样本的准确率,减小 bias。但是测试样本准确率不一定增加,除非增加的特征是有效特征。
这题对应的知识点也包括了增加模型复杂度,虽然会减小训练样本误差,但是容易发生过拟合。
Q13. 下面这张图是一个简单的线性回归模型,图中标注了每个样本点预测值与真实值的残差。计算 SSE 为多少?
A. 3.02
B. 0.75
C. 1.01
D. 0.604
答案:A
解析:SSE 是平方误差之和(Sum of Squared Error),SSE = (-0.2)^2 + (0.4)^2 + (-0.8)^2 + (1.3)^2 + (-0.7)^2 = 3.02
Q14. 假设变量 Var1 和 Var2 是正相关的,那么下面那张图是正确的?图中,横坐标是 Var1,纵坐标是 Var2,且对 Var1 和 Var2 都做了标准化处理。
A. Plot 1
B. Plot 2
答案:B
解析:显然,Plot 2 显示出 Var2 与 Var1 是正相关的,例如 Var2 = Var1。Plot 1 显示出 Var2 与 Var1 是负相关的,例如 Var2 = -Var1。
Q15. 假设一个公司的薪资水平中位数是 35,000,排名第25 35 , 000 , 排 名 第 25 21,000 和 53,000。如果某人的薪水是 53 , 000 。 如 果 某 人 的 薪 水 是 1,那么它可以被看成是异常值(Outlier)吗?
A. 可以
B. 不可以
C. 需要更多的信息才能判断
D. 以上说法都不对
答案:C
解析:异常值(Outlier)指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。
所谓物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。
统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。当物理识别不易判断时,一般采用统计识别法。
该题中,所给的信息量过少,无法肯定一定是异常值。