正则化_正则化-岭回归

最新推荐文章于 2023-07-18 13:45:33 发布

weixin_39893893

最新推荐文章于 2023-07-18 13:45:33 发布

阅读量274

点赞数

文章标签：正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39893893/article/details/111693861

版权

我们前面提到Loss Function:

最优解

对于数据集

，N个样本，P个特征

在求解W时，一般情况下,应该是

，但是在现实的工程上，往往出现数据量不够的情况，在这种情况下很容易出现

过拟合。正常情况，过拟合的解决方案有以下几种：①加数据，②特征选择/特征提取 ③正则化 ④dropout 。这里主要讲正则化

正则化框架：argmin[L(w)+ λp(w)]

L(w)为loss function p(w) 为penalty项

L1正则：也称Lasso，p(w) =

L2正则：也称Ridge，岭回归,权值衰减 p(w)=

,

L2正则目标函数：

欲求

,对J(w)进行求导

，可以达到抑制过拟合的效果

我们知道,矩阵A的逆等于：

当特征之间严格线性相关时，

= 0，如果特性存在较轻微的线性相关时，

会偏小，接近0，此时

会偏大，根据

，W会偏大

当加入正则后，先假设极端条件，λ很大，

会变成对角线为λ，其他位置的值与lambda相比，可忽略不计，此时即使原先未加入正则前存在线性相关，加入正则后线性相关也不存在了，此时

偏大，

将会是一个较小的值，W相应的也偏小。

从贝叶斯的角度来看L2正则，可以把y看成证据，可以给W 一个先验概率，服从N（0，

），为了方便计算，我们认为均值为0.

从最大后验（Maximum A Posteriori，MAP）估计考虑

由于p（y）是已知的，并不影响结果

前面在解释最小二乘法讲过, 误差

是独立同分布的，根据中心极限定理，假设服从均值为0，方差为某定值

的高斯分布。那么

服从均值为

，方差为

的高斯分布。

我们已经假定W 为一个先验概率，服从N（0，

）

代入上式

在这里，

都可以认为是常数，那么

仅与后面的那一项有关，简化后

乘上2

,去掉负号

之前为了方便推导，省略了

,上面的完整形式应该是

对比L2正则：

是惩罚项，λ =

L2正则就通过频率派和贝叶斯派联系起来了，L2假定的是高斯先验，而L1假定的拉普拉斯分布。

总结：

weixin_39893893

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。