从贝叶斯角度理解正则化缓解过拟合
参考: LR正则化与数据先验分布的关系? - Charles Xiao的回答 - 知乎
原始的Linear Regression
假设有若干数据 (x1,y1),(x2,y2),...,(xm,ym) ,我们要对其进行线性回归。也就是得到一个方程
y=ωTx+ϵ
注意,这里忽略偏置,或者可以认为偏置是在 ωTx 里面。
ϵ 可以认为是,我们拟合的值和真实值之间的误差。
我们将 ϵ 看成是一个随机变量,其服从高斯分布,即 p(ϵ)=N(0,δ2) ,即:
p(ϵi)=12π−−√δexp(−(ϵi)22δ2)
则对于每一个数据点 (xi,yi) ,我们用 xi 得到 yi 的概率为:
p(yi|xi;ω)=12π−−√δexp(−(yi−ωTxi)22δ2)
注意,这里的 yi 是真实值。
如果我们想要让这个概率最大,就得到了最大似然:
L(ω)=∏i=1mp(yi|xi;ω)=∏i=1m