在上一篇文章中,我们通过最小二乘法
得到了线性回归问题中,最优参数的闭式解:
β l s = ( X T X ) − 1 X T Y (1) \beta^{ls} = (X^TX)^{-1}X^TY \tag{1} βls=(XTX)−1XTY(1)
但是为什么在优化时使用最小二乘法呢?
从正态分布到最小二乘法
在这一小节,我们重点阐述所有推导的依据,首先要给出一个关键的定理,中心极限定理
,作为后续的基础。
中心极限定理
中心极限定理
说明大量的独立同分布变量共同作用的结果,会逐渐趋近一个正态分布,我们可以认为,也是假设预测值和真实值之间的误差 ϵ \epsilon ϵ,来源于大量的独立同分布(iid, independently identically distribution
)效果的叠加,这里的独立来源于不同干扰项之间相互不影响,但是同分布的要求较为牵强,可认为是由于产生的环境都较为类似故近似认为是同分布,但是正态分布的常见性使得这个假设的适用范围很广,一般会有较好的效果。
可记
ϵ i = y − x i T β (2) \epsilon_i=y-x_i^T\beta \tag{2} ϵi=y−xiTβ(2)
满足 ϵ i ∼ N ( μ , σ 2 ) \epsilon_i \sim \bold{N} ~(\mu, \sigma^2) ϵi∼N (μ,σ2),其中 β \beta β为真实参数。
而其中误差的均值可以通过bias调整到零,即将bias项增加 μ \mu μ,则 ϵ i = y − x i T β − μ \epsilon_i = y-x_i^T\beta-\mu ϵi=y−xiTβ−μ,此时其对应的正态分布变为 N ( 0 , σ 2 ) \bold{N}(0, \sigma^2) N(0,σ2),成功将分布中心移到原点处。。
引入了正态分布之后,可以据此进行下一步的讨论。
极大似然估计
使用乘法原理得到如下的联合分布,以描述当前数据集
P ( ϵ ∣ X , Y ) = ∏ P ( ϵ i ) = ∏ i 1 2 π exp ( − ( ϵ i ) 2 2 σ 2 ) = ( 1 2 π ) N ∏ i exp ( − ( ϵ i ) 2 2 σ 2 ) (3) \begin{aligned} \bold{P}(\epsilon|X, Y)&=\prod \bold{P}(\epsilon_i)\\ &=\prod_i \frac{1}{\sqrt{2 \pi}}\exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\\ &=\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)^N\prod_i \exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg) \end{aligned} \tag{3} P(ϵ∣X,Y)=∏P(ϵi)=i∏2π1exp(−2σ2(ϵi)2)=(2π1)Ni∏exp(−2σ2(ϵi)2)(3)
可认为在类似环境下产生的数据方差一样,即认为 ϵ i \epsilon_i ϵi独立同分布。这个iid的底气就比上面那个假设要强。
则上式取对数之后有
log ( P ( ϵ ∣ X , Y ) ) = log [ ( 1 2 π ) N ∏ i exp ( − ( ϵ i ) 2 2 σ 2 ) ] = ∑ i log ( 1 2 π exp ( − ( ϵ i ) 2 2 σ 2 ) ) = N log ( 1 2 π ) + ∑ i − ( ϵ i ) 2 2 σ 2 = C − 1 2 σ 2 ∑ i ϵ i 2 (4) \begin{aligned} \log\big(\bold{P}(\epsilon|X, Y)\big)&=\log\bigg[\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)^N\prod_i \exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\bigg]\\ &=\sum_i \log\bigg(\frac{1}{\sqrt{2 \pi}}\exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\bigg)\\ &=N\log\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)+\sum_i -\frac{(\epsilon_i )^2}{2\sigma ^2}\\ &=C-\frac{1}{2\sigma ^2}\sum_i \epsilon_i ^2 \tag{4} \end{aligned} log(P(ϵ∣X,Y))=log[(2π1)Ni∏exp(−2σ2(ϵi)2)]=i∑log(2π1exp(−2σ2(ϵi)2))=Nlog(2π1)+i∑−2σ2(ϵi)2=C−2σ