中科院算法研究员带你学算法(2)——线性回归(2)

本文深入探讨线性回归的最小二乘法优化基础,从正态分布的中心极限定理出发,阐述误差的正态分布假设,然后通过极大似然估计解释最小二乘法的合理性。同时,文章介绍了用于评估模型效果的R2指标,并对比了频率学派和贝叶斯学派在统计学上的观点。
摘要由CSDN通过智能技术生成

  在上一篇文章中,我们通过最小二乘法得到了线性回归问题中,最优参数的闭式解:
β l s = ( X T X ) − 1 X T Y (1) \beta^{ls} = (X^TX)^{-1}X^TY \tag{1} βls=(XTX)1XTY(1)
但是为什么在优化时使用最小二乘法呢?

从正态分布到最小二乘法

  在这一小节,我们重点阐述所有推导的依据,首先要给出一个关键的定理,中心极限定理,作为后续的基础。

中心极限定理

  中心极限定理说明大量的独立同分布变量共同作用的结果,会逐渐趋近一个正态分布,我们可以认为,也是假设预测值和真实值之间的误差 ϵ \epsilon ϵ,来源于大量的独立同分布(iid, independently identically distribution)效果的叠加,这里的独立来源于不同干扰项之间相互不影响,但是同分布的要求较为牵强,可认为是由于产生的环境都较为类似故近似认为是同分布,但是正态分布的常见性使得这个假设的适用范围很广,一般会有较好的效果。

可记

ϵ i = y − x i T β (2) \epsilon_i=y-x_i^T\beta \tag{2} ϵi=yxiTβ(2)
满足 ϵ i ∼ N   ( μ , σ 2 ) \epsilon_i \sim \bold{N} ~(\mu, \sigma^2) ϵiN (μ,σ2),其中 β \beta β为真实参数。

  而其中误差的均值可以通过bias调整到零,即将bias项增加 μ \mu μ,则 ϵ i = y − x i T β − μ \epsilon_i = y-x_i^T\beta-\mu ϵi=yxiTβμ,此时其对应的正态分布变为 N ( 0 , σ 2 ) \bold{N}(0, \sigma^2) N(0,σ2),成功将分布中心移到原点处。。
  引入了正态分布之后,可以据此进行下一步的讨论。

极大似然估计

使用乘法原理得到如下的联合分布,以描述当前数据集

P ( ϵ ∣ X , Y ) = ∏ P ( ϵ i ) = ∏ i 1 2 π exp ⁡ ( − ( ϵ i ) 2 2 σ 2 ) = ( 1 2 π ) N ∏ i exp ⁡ ( − ( ϵ i ) 2 2 σ 2 ) (3) \begin{aligned} \bold{P}(\epsilon|X, Y)&=\prod \bold{P}(\epsilon_i)\\ &=\prod_i \frac{1}{\sqrt{2 \pi}}\exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\\ &=\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)^N\prod_i \exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg) \end{aligned} \tag{3} P(ϵX,Y)=P(ϵi)=i2π 1exp(2σ2(ϵi)2)=(2π 1)Niexp(2σ2(ϵi)2)(3)

  可认为在类似环境下产生的数据方差一样,即认为 ϵ i \epsilon_i ϵi独立同分布。这个iid的底气就比上面那个假设要强。

  则上式取对数之后有
log ⁡ ( P ( ϵ ∣ X , Y ) ) = log ⁡ [ ( 1 2 π ) N ∏ i exp ⁡ ( − ( ϵ i ) 2 2 σ 2 ) ] = ∑ i log ⁡ ( 1 2 π exp ⁡ ( − ( ϵ i ) 2 2 σ 2 ) ) = N log ⁡ ( 1 2 π ) + ∑ i − ( ϵ i ) 2 2 σ 2 = C − 1 2 σ 2 ∑ i ϵ i 2 (4) \begin{aligned} \log\big(\bold{P}(\epsilon|X, Y)\big)&=\log\bigg[\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)^N\prod_i \exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\bigg]\\ &=\sum_i \log\bigg(\frac{1}{\sqrt{2 \pi}}\exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\bigg)\\ &=N\log\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)+\sum_i -\frac{(\epsilon_i )^2}{2\sigma ^2}\\ &=C-\frac{1}{2\sigma ^2}\sum_i \epsilon_i ^2 \tag{4} \end{aligned} log(P(ϵX,Y))=log[(2π 1)Niexp(2σ2(ϵi)2)]=ilog(2π 1exp(2σ2(ϵi)2))=Nlog(2π 1)+i2σ2(ϵi)2=C2σ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值