正则化的原理解释——过拟合

最新推荐文章于 2024-03-06 17:58:28 发布

qxq_sunshine

最新推荐文章于 2024-03-06 17:58:28 发布

阅读量280

点赞数

分类专栏：深度学习理解篇工作面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qxqsunshine/article/details/111276310

版权

深度学习理解篇同时被 2 个专栏收录

38 篇文章 7 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

1、欠拟合：模型过于简单

过拟合：模型过于复杂，数据量太少

2、如何防止过拟合？

使用正则化项（L1正则化（||W||=|w1|+...+|wn|，），L2正则化( $||w||_{2}^{2}=w_{1}^{2}+...+w_{n}^{2}$ ）)

模型复杂度与参数向量有关。使用正则化后可以使得某些参数趋向于0或者等于0，达到减少参数的目的

经验风险最小化——》结构风险最小化（加上正则化项）

正则化<——>带约束条件，即减少解空间，减少模型复杂度

3、L1正则具有稀疏性。

为什么使得很多参数的值变成0.

从解空间的形状：

L1正则有棱有角，更容易在顶点处取得最优解（概率会更大），此时会有一个参数为0，所以会构成解空间的稀疏性。

而L2正则取得最优解可能在接近0的位置，概率相对来说没有那么大。

贝叶斯最大后验概率的角度：

L1正则相当于假设加入一个先验概率，假设服从均值为0参数为的拉普拉斯分布。

L2正则，假设服从均值为0参数为的正态分布。

拉普拉斯分布比正态分布在图像上，在0处更为集中，更可能使得一些参数值取到0值，所以L1正则才会有一些稀疏性，所以可以做一些特征选择。

极大似然估计：见博客：https://blog.csdn.net/zengxiantao1994/article/details/72787849

贝叶斯估计：看到样本的情况下调整theta，求后验概率。。。。。。先验概率是没看到样本的情况下。求后验概率最大则需要求MLE（极大似然估计最大）

拉普拉斯分布和正态分布的曲线：

红色为拉普拉斯分布，其取0的概率非常大，则更可能具有稀疏性。而正态分布比较平缓，取得峰值的概率较小

起到特征选择的作用。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
正则化的原理解释——过拟合

1、欠拟合：模型过于简单过拟合：模型过于复杂，数据量太少2、如何防止过拟合？使用正则化项（L1正则化（||W||=|w1|+...+|wn|，），L2正则化(）)模型复杂度与参数向量有关。使用正则化后可以使得某些参数趋向于0或者等于0，达到减少参数的目的经验风险最小化——》结构风险最小化（加上正则化项）正则化<——>带约束条件，即减少解空间，减少模型复杂度3、L1正则具有稀疏性。为什么使得很多参数的值变成0.从解空间的形状：L1正则有棱有角，更容易在顶点处
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。