机器学习面试:L1和L2为什么可以防止过拟合

什么是过拟合

过拟合这个意思其实就是提高泛化能力,我们在训练集上整了一个极其复杂的模型,准确率高达99.9999%,但是当把这个模型应用到测试集上的时候,准确率跌到了0.0001%,这种情况就称为过拟合或者说模型的泛化能力差。
过拟合

怎么提高泛化能力

看了很多关于L1和L2的文章,上来就是各种数学推导,还有不明所以的图片,L1让参数变为0,L2让参数趋向于0,这怎么就可以提高泛化能力,防止过拟合呢?推导是看明白了,但是心底的疑问依然没有解答。

为什么参数减少了就能防止过拟合
为什么参数减少了就能防止过拟合
为什么参数减少了就能防止过拟合

我就想啊,假如咱们训练了一个很复杂的模型(想想深度神经网络),训练集和测试集精确率都非常高,上线的结果也非常的漂亮,我为什么还要减少参数个数呢?上百的logstic回归达到了80%的精度,上万个参数的神经网络达到在测试集上达到了95%的精度,我会选择参数少的logstic吗?所以我在想,好像并不是说参数越少模型的泛化能力就越高,这是一个充分不必要条件。如果一定要说减少参数可以防止过拟合,这个前提是同一个模型下

为什么约束参数可以防止过拟合

为什么模型可以进行预测。训练集和测试集是同分布的,我们在训练集学到的模型就可以应用到测试集上,但是训练集通常是有限的,数据是离散的,这就导致我们会学到各种各样的模型,下面的回归模型,可以构建各种高阶多项式进行拟合,单从训练集上根本看不出哪一种模型好,哪一种模型坏(高维的情况你还能知道选择哪一个?)。但是如果让你选,你会选择哪一个呢?很多人应该都会选择第二个(人工基本不太可能筛选高维模型,这里是简化),老实讲,因为觉得光滑,自然界中大多数样本都是光滑的,样本之间不太可能有很大的波动,说成数学语言就是,导数不大

过拟合就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。我们没有办法约束样本,但是可以通过约束参数(正则化)使其不要太大,所以可以在一定程度上是模型更加平滑,减少过拟合情况

离散数据导致学习到不同的模型
我也看到了很多用结构风险最小化来解释的。但还是不太能接受,结构化风险依然没有说明为什么复杂度小的模型会对测试集有较好的预测结果(看看最后的疑问)

L1和L2正则化

上面假设了,自然界中模型是趋于光滑的,梯度变化不会很大,这样可以通过约束参数使得梯度改变的不大(不知怎么的,就想到了梯度爆炸和梯度消失),即 ∑ ∣ w ∣ ⩽ C \sum |w| \leqslant C wC或者 ∑ w 2 ⩽ C \sum w^2 \leqslant C w

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
BAT机器学习面试1000题系列 1 前言 1 BAT机器学习面试1000题系列 2 1 归一化为什么能提高梯度下降法求解最优解的速度? 22 2 归一化有可能提高精度 22 3 归一化的类型 23 1)线性归一化 23 2)标准差标准化 23 3)非线性归一化 23 35. 什么是熵。机器学习 ML基础 易 27 熵的引入 27 3.1 无偏原则 29 56. 什么是卷积。深度学习 DL基础 易 38 池化,简言之,即取区域平均或最大,如下图所示(图引自cs231n) 40 随机梯度下降 46 批量梯度下降 47 随机梯度下降 48 具体步骤: 50 引言 72 1. 深度有监督学习在计算机视觉领域的进展 73 1.1 图像分类(Image Classification) 73 1.2 图像检测(Image Dection) 73 1.3 图像分割(Semantic Segmentation) 74 1.4 图像标注–看图说话(Image Captioning) 75 1.5 图像生成–文字转图像(Image Generator) 76 2.强化学习(Reinforcement Learning) 77 3深度无监督学习(Deep Unsupervised Learning)–预测学习 78 3.1条件生成对抗网络(Conditional Generative Adversarial Nets,CGAN) 79 3.2 视频预测 82 4 总结 84 5 参考文献 84 一、从单层网络谈起 96 二、经典的RNN结构(N vs N) 97 三、N VS 1 100 四、1 VS N 100 五、N vs M 102 Recurrent Neural Networks 105 长期依赖(Long-Term Dependencies)问题 106 LSTM 网络 106 LSTM 的核心思想 107 逐步理解 LSTM 108 LSTM 的变体 109 结论 110 196. L1L2范数。机器学习 ML基础 易 163 218. 梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?深度学习 DL基础 中 178 @李振华,https://www.zhihu.com/question/68109802/answer/262143638 179 219. 请比较下EM算法、HMM、CRF。机器学习 ML模型 中 179 223. Boosting和Bagging 181 224. 逻辑回归相关问题 182 225. 用贝叶斯机率说明Dropout的原理 183 227. 什么是共线性, 跟过拟合有什么关联? 184 共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。 184 共线性会造成冗余,导致过拟合。 184 解决方法:排除变量的相关性/加入权重正则。 184 勘误记 216 后记 219

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值