第3章-一元线性回归
1.最小二乘估计
基于均方误差最小化来进行模型求解的方法称为 “最小二乘法”
arg min ω , b E ( ω , b ) \mathop{\arg\min}\limits_{\omega, b} E_{(\omega, b)} ω,bargminE(ω,b)
以上公式的意思是求使得 E ( ω , b ) E_{(\omega, b)} E(ω,b) 最小的 ω \omega ω 和 b b b 。
其中 E ( ω , b ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 E_{(\omega, b)} = \sum_{i=1}^{m} (y_i - f(x_i))^2 E(ω,b)=∑i=1m(yi−f(xi))2 。
2.极大似然估计
极大似然估计是估计参数的统计方法(MLE),通过寻找使得观测数据出现的概率最大的参数值来对未知参数进行估计。
对于线性回归来讲,也可以假设其为以下模型
y = ω x + b + ϵ y = \omega x + b + \epsilon y=ωx+b+ϵ
其中 ϵ \epsilon ϵ 为不受控制的随机误差,通常假设其服从均值为 0 0 0 的正态分布 ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim \mathcal{N}(0, \sigma^2) ϵ∼N(0,σ2) (高斯提出的,也可以用中心极限定理解释),所以 ϵ \epsilon ϵ 的概率密度函数为
p ( ϵ ) = 1 2 π σ exp ( − ϵ 2 2 σ 2 ) p(\epsilon) = \frac{1}{\sqrt{2 \pi} \sigma } \exp (-\frac{\epsilon ^ 2}{2\sigma^2}) p(ϵ)=2πσ1exp(−2σ2ϵ2)
若将 ϵ \epsilon ϵ 用 y − ( ω x + b ) y - (\omega x + b) y−(ωx+b) 等价替换可得
p ( ϵ ) = 1 2 π σ exp ( − ( y − ( ω x + b ) ) 2 2 σ 2 ) p(\epsilon) = \frac{1}{\sqrt{2 \pi} \sigma } \exp (-\frac{( y - (\omega x + b) )^ 2}{2\sigma^2}) p(ϵ)=2πσ1exp(−2σ2(y−(ωx+b))2)
可以看作 y ∼ N ( ω x + b , σ 2 ) y \sim \mathcal{N}(\omega x + b, \sigma^2) y∼N(ωx+b,σ2) ,下面便可以用极大似然估计来估计 ω \omega ω 和 b b b 的值
L ( ω , b ) = ∏ i = 1 m p ( y i ) = ∏ i = 1 m 1 2 π σ exp ( − ( y − ( ω x + b ) ) 2 2 σ 2 ) L(\omega, b) = \prod_{i=1}^{m} p({y_i}) = \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma } \exp (-\frac{( y - (\omega x + b) )^ 2}{2\sigma^2}) L(ω,b)=i=1∏mp(yi)=i=1∏m2πσ1exp(−2σ2(y−(ωx+b))2)
ln L ( ω , b ) = ∑ i = 1 m ln 1 2 π σ exp ( − ( y i − ( ω x i + b ) ) 2 2 σ 2 ) = ∑ i = 1 m ln 1 2 π σ + ∑ i = 1 m ln exp ( − ( y i − ( ω x i + b ) ) 2 2 σ 2 ) \ln{L}(\omega, b) = \sum_{i=1}^{m} \ln{\frac{1}{\sqrt{2 \pi} \sigma } \exp (-\frac{( y_i - (\omega x_i + b) )^ 2}{2\sigma^2}) } = \sum_{i=1}^{m} \ln{\frac{1}{\sqrt{2 \pi} \sigma } + \sum_{i=1}^{m}{\ln\exp (-\frac{( y_i - (\omega x_i + b) )^ 2}{2\sigma^2}) }} lnL(ω,b)=i=1∑mln2πσ1exp(−2σ2(yi−(ωxi+b))2)=i=1∑mln2πσ1+i=1∑mlnexp(−2σ2(yi−(ωxi+b))2)
ln L ( ω , b ) = m ln 1 2 π σ − 1 2 σ 2 ∑ i = 1 m ( y i − ω x i − b ) 2 \ln{L}(\omega, b) = m \ln{ \frac{1}{\sqrt{2 \pi} \sigma }} - \frac{1}{2 \sigma^2} \sum_{i=1}^{m}{(y_i - \omega x_i - b)}^2 lnL(ω,b)=mln2πσ1−2σ21i=1∑m(yi−ωxi−b)2
去掉前面的常数和负号,相当于最小化后半部分式子
( ω ∗ , b ∗ = arg max ) ω , b ln L ( ω , b ) = arg min ω , b ∑ i = 1 m ( y i − ω x i − b ) 2 (\omega^*, b^* = \mathop{\arg\max)} \limits_{\omega, b} \ln{L}(\omega, b) = \mathop{\arg\min} \limits_{\omega, b} \sum_{i=1}^m {(y_i - \omega x_i - b)}^2 (ω∗,b∗=ω,bargmax)lnL(ω,b)=ω,bargmini=1∑m(yi−ωxi−b)2
等价于最小二乘估计