正则化的原理解释——过拟合

1、欠拟合:模型过于简单

过拟合:模型过于复杂,数据量太少

2、如何防止过拟合?

使用正则化项(L1正则化(||W||=|w1|+...+|wn|,),L2正则化(||w||_{2}^{2}=w_{1}^{2}+...+w_{n}^{2}))

模型复杂度与参数向量有关。使用正则化后可以使得某些参数趋向于0或者等于0,达到减少参数的目的

经验风险最小化——》结构风险最小化(加上正则化项)

正则化<——>带约束条件,即减少解空间,减少模型复杂度

3、L1正则具有稀疏性。

为什么使得很多参数的值变成0.

从解空间的形状

L1正则有棱有角,更容易在顶点处取得最优解(概率会更大),此时会有一个参数为0,所以会构成解空间的稀疏性。

而L2正则取得最优解可能在接近0的位置,概率相对来说没有那么大。

贝叶斯最大后验概率的角度: 

L1正则相当于假设加入一个先验概率,假设服从均值为0参数为的拉普拉斯分布。

L2正则,假设服从均值为0参数为的正态分布。

拉普拉斯分布比正态分布在图像上,在0处更为集中,更可能使得一些参数值取到0值,所以L1正则才会有一些稀疏性,所以可以做一些特征选择。

极大似然估计:见博客:https://blog.csdn.net/zengxiantao1994/article/details/72787849

贝叶斯估计:看到样本的情况下调整theta,求后验概率。。。。。。先验概率是没看到样本的情况下。求后验概率最大则需要求MLE(极大似然估计最大)

拉普拉斯分布和正态分布的曲线:

红色为拉普拉斯分布,其取0的概率非常大,则更可能具有稀疏性。而正态分布比较平缓,取得峰值的概率较小

起到特征选择的作用。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值