正则化_正则化-岭回归

我们前面提到Loss Function:

最优解

对于数据集

,N个样本,P个特征

在求解W时,一般情况下,应该是

,但是在现实的工程上,往往出现数据量不够的情况,在这种情况下很容易出现
过拟合。正常情况,过拟合的解决方案有以下几种:①加数据,②特征选择/特征提取 ③正则化 ④dropout 。这里主要讲正则化

正则化框架:argmin[L(w)+ λp(w)]

L(w)为loss function p(w) 为penalty项

L1正则: 也称Lasso,p(w) =

L2正则:也称Ridge,岭回归,权值衰减 p(w)=

,

L2正则目标函数:

欲求

,对J(w)进行求导

,可以达到抑制过拟合的效果

我们知道,矩阵A的逆等于:

当特征之间严格线性相关时,

= 0, 如果特性存在较轻微的线性相关时,
会偏小,接近0,此时
会偏大,根据
,W会偏大

当加入正则后 ,先假设极端条件,λ很大,

会变成对角线为λ,其他位置的值与lambda相比,可忽略不计,此时即使原先未加入正则前存在线性相关,加入正则后线性相关也不存在了,此时
偏大,
将会是一个较小的值,W相应的也偏小。

从贝叶斯的角度来看L2正则,可以把y看成证据,可以给W 一个先验概率,服从N(0,

),为了方便计算,我们认为均值为0.

从最大后验(Maximum A Posteriori,MAP)估计考虑

由于p(y)是已知的,并不影响结果

前面在解释最小二乘法讲过, 误差

是独立同分布的,根据中心极限定理,假设服从均值为0,方差为某定值
的高斯分布。 那么
服从均值为
,方差为
的高斯分布。

我们已经假定W 为一个先验概率,服从N(0,

代入上式

在这里,

都可以认为是常数,那么
仅与后面的那一项有关 ,简化后

乘上2
,去掉负号

之前为了方便推导,省略了

,上面的完整形式应该是

对比L2正则:

是惩罚项,λ =

L2正则就通过频率派和贝叶斯派联系起来了 ,L2假定的是高斯先验,而L1假定的拉普拉斯分布。

总结:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值