2.正则化
2.1 什么是正则化?
(截自李航《统计学习方法》)
常用的正则项有L1,L2等,这里只介绍这两种。
2.2 L1正则项
L1正则,又称lasso,其公式为:
L1=α∑kj=1|θj|
特点:约束θj的大小,并且可以产生稀疏性
[问题] : 为什么L1正则可以产生稀疏性?
从图形上理解,L1正则的实质,相当于约束了θ的绝对值之和的大小。将这个约束条件,转化到解空间中,就是一个有角图形。对于这个有角图形,当我们求解时,会有更大几率去接触到角。而角就代表着,坐标轴上的交点,有的模型参数为0,也就是模型参数对于的这个特征被淘汰。
从贝叶斯的角度看,
θ=argmax(p(θ|D))=argmax(p(D|θ)p(θ)p(D))=argmax(p(D|θ)p(θ))
p(D|θ)=∏mn=1p(Dn|θ) p(θ)=∏ci=1∏dj=1p(θij)
对p(D|θ)p(θ)取对数得:
θ=argmax(∑mn=1ln(p(D|θ))+ln(p(θ))
假设θij满足laplace分布, 则 p(θij)=−12b