机器学习面试问题

方差概念

期望值与真实值之间的波动程度,衡量的是稳定性。

偏差概念

期望值与真实值之间的一致差距,衡量的是准确性

引发高方差原因

  • 过高复杂度的模型,对训练集进行过拟合
    训练集合上效果非常好,但是在校验集合上效果极差

解决高方差问题

  • 在模型复杂程度不变的情况下,增加更多数据
    增加数据如果和原数据分布一致,无论增加多少必定解决不了高方差
    Q:smote对样本进行扩充是否必定可以避免高方差?
    过采样是否解决高方差问题?
  • 在数据量不变的情况下,减少特征维度
    减少的特征维度如果是共线性的维度,对原模型没有任何影响
    Q:罗辑回归中,如果把一列特征重复2遍,会对最后的结果产生影响么?
  • 在数据和模型都不变的情况下,加入正则化
    正则化通常都是有效的

解决高偏差问题

  • 尝试获得更多的特征
    从数据入手,进行特征交叉,或者特征的embedding化

  • 尝试增加多项式特征
    从模型入手,增加更多线性及非线性变化,提高模型的复杂度

  • 尝试减少正则化程度λ

  • 特征越稀疏,高方差的风险越高

  • 多个线性变换=一个线性变换,多个非线性变换不一定=一个多线性变换

  • 正则化通常都是有效的

机器学习中的偏差与方差问题

  • 从偏差-方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝决策树,神经网络等易受样本扰动的学习器上效果更为明显。
  • 从偏差-方差分解的角度看,Boosting主要关注降低偏差,因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。

深度学习中的偏差与方差问题

神经网络的拟合能力非常强,因此它的训练误差(偏差)通常较小; 但是过强的拟合能力会导致较大的方差,使模型的测试误差(泛化误差)增大; 因此深度学习的核心工作之一就是研究如何降低模型的泛化误差,这类方法统称为正则化方法。

  • dropout
  • dense中的normalization
  • 数据的shuffle
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

慎独yfs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值