机器学习笔试题精选 知识点

参考:

https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/

https://blog.csdn.net/red_stone1?t=1

1.留一法,简单来说就是假设有 N 个样本,将每一个样本作为测试样本,其它 N-1 个样本作为训练样本。这样得到 N 个分类器,N 个测试结果。用这 N个结果的平均值来衡量模型的性能。

2.线性回归模型计算损失函数,例如均方差损失函数时,使用的都是 vertical offsets。perpendicular offsets 一般用于主成分分析(PCA)中。如图所示:

3.偏差(bias)可以看成模型预测与真实样本的差距,想要得到 low bias,就得复杂化模型,但是容易造成过拟合。方差(variance)可以看成模型在测试集上的表现,想要得到 low variance,就得简化模型,但是容易造成欠拟合。

如果模型过于简单,通常会造成欠拟合,伴随着高偏差、低方差;如果模型过于复杂,通常会造成过拟合,伴随着低偏差、高方差。

3. 如果数据量较少,容易在假设空间找到一个模型对训练样本的拟合度很好,容易造成过拟合,该模型不具备良好的泛化能力。

    如果假设空间较小,包含的可能的模型就比较少,也就不太可能找到一个模型能够对样本拟合得很好,容易造成高偏差、低方差,即欠拟合。

4.Lasso 回归其实就是在普通线性回归的损失函数的基础上增加了个 β 的约束,第一范数约束下,β 更有可能被约束成 0, 因此,Lasso 回归适用于样本数量较少,特征维度较大的情形,便于从较多特征中进行特征选择。例如 DNA 数据,特征维度很大,我们只希望通过 Lasso 回归找出与某些疾病有关的 DNA 片段,Lasso 回归会让一部分回归系数刚好可以被约束为 0,起到特征选择的效果。

5. Ridge 回归又称岭回归,它是普通线性回归加上 L2 正则项,用来防止训练过程中出现的过拟合。L2 正则化效果,限定区域是圆,这样,得到的回归系数为 0 的概率很小,很大概率是非零的。因此,比较来说,Lasso 回归更容易得到稀疏的回归系数,有利于舍弃冗余或无用特征,适用于特征选择。

6. 如果在线性回归模型中增加一个特征变量,下列可能发生的是(多选)?

A. R-squared 增大,Adjust R-squared 增大 B. R-squared 增大,Adjust R-squared 减小 C. R-squared 减小,Adjust R-squared 减小 D. R-squared 减小,Adjust R-squared 增大

**答案**:AB *R-Squared 反映的是大概有多准,因为,随着样本数量的增加,R-Squared 必然增加,无法真正定量说明准确程度,只能大概定量。 单独看 R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征特征,R-Squared 可能变大也可能保持不变,两者不一定呈正相关。 如果使用校正决定系数(Adjusted R-Squared),增加一个特征变量,如果这个特征有意义,Adjusted R-Square 就会增大,若这个特征是冗余特征,Adjusted R-Squared 就会减小。分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。

 

均方误差:MSE=1m∑i=1m(y(i)−y^(i))2   

评价均方误差:MAE=1m∑i=1m|y(i)−y^(i)| 

7.求解线性回归系数,我们一般最常用的方法是梯度下降,利用迭代优化的方式。除此之外,还有一种方法是使用正规方程,原理是基于最小二乘法。下面对正规方程做简要的推导。

已知线性回归模型的损失函数 Ein 为:

Ein=1m(XW−Y)2
Ein=1m(XW−Y)2
对 Ein 计算导数,令 ∇Ein=0:

∇Ein=2m(XTXW−XTY)=0
∇Ein=2m(XTXW−XTY)=0
然后就能计算出 W:W=(XTX)−1XTY
W=(XTX)−1XTY
以上就是使用正规方程求解系数 W 的过程。可以看到,正规方程求解过程不需要学习因子,也没有迭代训练过程。当特征数目很多的时候,XTXXTX 矩阵求逆会很慢,这时梯度下降算法更好一些。

8.相关系数 r=0 只能说明两个变量之间不存在线性关系,仍然可能存在非线性关系。

9.SSE 是平方误差之和(Sum of Squared Error)

10.

相关(Correlation)是计算两个变量的线性相关程度,是对称的。也就是说,x 与 y 的相关系数和 y 与 x 的相关系数是一样的,没有差别。

回归(Regression)一般是利用 特征 x 预测输出 y,是单向的、非对称的。

11 偏斜度是对统计数据分布偏斜方向及程度的度量。偏斜度是利用 3 阶矩定义的,其计算公式如下:

Sc=∑(xi−x¯)3/m
Sc=∑(xi−x¯)3/m
其中,n 是样本数量。统计数据的频数分布有的是对称的,有的是不对称的,即呈现偏态。

在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。

12.

  • λ 较小:偏差减小,方差增大,容易发生过拟合
  • λ 较大:偏差增大,方差减小,容易发生欠拟合

13.预测值与残差之间不应该存在任何函数关系,若存在函数关系,表明模型拟合的效果并不很好。对应在图中,若横坐标是预测值,纵坐标是残差,残差应表现为与预测值无关的随机分布。

14.

Ridge 回归是一般的线性回归再加上 L2 正则项,它具有封闭形式的解,可以基于最小二乘法求解。
Lasso 回归是一般的线性回归再加上 L1 正则项,L1 正则项使解是非线性的,没有封闭形式的解。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值