我们前面提到Loss Function:
最优解
对于数据集
,N个样本,P个特征
在求解W时,一般情况下,应该是
,但是在现实的工程上,往往出现数据量不够的情况,在这种情况下很容易出现
过拟合。正常情况,过拟合的解决方案有以下几种:①加数据,②特征选择/特征提取 ③正则化 ④dropout 。这里主要讲正则化
正则化框架:argmin[L(w)+ λp(w)]
L(w)为loss function p(w) 为penalty项
L1正则: 也称Lasso,p(w) =
L2正则:也称Ridge,岭回归,权值衰减 p(w)=
,
L2正则目标函数:
欲求
,对J(w)进行求导
,可以达到抑制过拟合的效果
我们知道,矩阵A的逆等于:
当特征之间严格线性相关时,
= 0, 如果特性存在较轻微的线性相关时,
会偏小,接近0,此时
会偏大,根据
,W会偏大
当加入正则后 ,先假设极端条件,λ很大,
会变成对角线为λ,其他位置的值与lambda相比,可忽略不计,此时即使原先未加入正则前存在线性相关,加入正则后线性相关也不存在了,此时
偏大,
将会是一个较小的值,W相应的也偏小。
从贝叶斯的角度来看L2正则,可以把y看成证据,可以给W 一个先验概率,服从N(0,
),为了方便计算,我们认为均值为0.
从最大后验(Maximum A Posteriori,MAP)估计考虑
由于p(y)是已知的,并不影响结果
前面在解释最小二乘法讲过, 误差
是独立同分布的,根据中心极限定理,假设服从均值为0,方差为某定值
的高斯分布。 那么
服从均值为
,方差为
的高斯分布。
我们已经假定W 为一个先验概率,服从N(0,
)
代入上式
在这里,
都可以认为是常数,那么
仅与后面的那一项有关 ,简化后
乘上2
,去掉负号
之前为了方便推导,省略了
,上面的完整形式应该是
对比L2正则:
是惩罚项,λ =