一元线性回归-最小二乘法 最大似然估计

一、引言

本文以一元线性回归为例,整理线性回归模型参数的估计方法。

样本 ( x , y ) (x,y) (x,y)可由 y = β 0 + β 1 x + ε y=\beta _{0}+\beta _{1}x+\varepsilon y=β0+β1x+ε 表示,其中, ε \varepsilon ε为随机因素引起的噪声, y = β 0 + β 1 x y=\beta _{0}+\beta _{1}x y=β0+β1x为用变量 x x x y y y关系描述的一元线性回归模型。模型中参数 β 0 \beta _{0} β0 β 1 \beta _{1} β1估计的两种常用方法为最小二程法、最大似然估计法。

二、假设条件

(1)样本观测值 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) (x1,y1),(x2,y2),...,(xn,yn)数据是独立观测的;
(2)解释变量 x x x是确定性变量,并非随机变量;
(3)随机变量 y 1 , y 2 , . . . , y n y_{1},y_{2},...,y_{n} y1,y2,...,yn的期望不等,但方差相等,即 y 1 , y 2 , . . . , y n y_{1},y_{2},...,y_{n} y1,y2,...,yn独立但不同分布;
(4)随机变量残差(扰动项) ε 1 , ε 2 , . . . , ε n \varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n} ε1,ε2,...,εn独立同分布,且 ε i ∼ N ( 0 , σ 2 ) \varepsilon_{i}\sim N(0,\sigma ^{2}) εiN(0,σ2),则 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma ^{2}) εN(0,σ2)

三、最小二乘法

最小二程法用来寻找线性回归模型中的参数 β 0 \beta _{0} β0 β 1 \beta _{1} β1的估计值,估计值用 β 0 ^ \widehat{\beta _{0}} β0 β 1 ^ \widehat{\beta _{1}} β1 表示。为获得最优估计值,算法将预测值和真实观测值之间的误差最小作为优化目标,即计算扰动项的最小值:
m i n ∑ i = 1 n ε i = m i n ∑ i = 1 n ( y i − y i ^ ) = m i n ∑ i = 1 n ( y i − β 0 − β 1 x ) min\sum_{i=1}^{n}\varepsilon _{i}=min\sum_{i=1}^{n}(y_{i}-\widehat{y_{i}})=min\sum_{i=1}^{n}\left ( y_{i}-\beta _{0}-\beta _{1}x \right ) mini=1nεi=mini=1n(yiyi )=mini=1n(yiβ0β1x)
于是 β 0 \beta _{0} β0 β 1 \beta _{1} β1的参数估计变成求 Q = ∑ i = 1 n ( y i − β 0 − β 1 x ) Q=\sum_{i=1}^{n}\left ( y_{i}-\beta _{0}-\beta _{1}x \right ) Q=i=1n(yiβ0β1x)的极值问题,求偏导
{ ∂ Q ∂ β 0 = 0 ∂ Q ∂ β 1 = 0 \begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \end{cases} β0Q=0β1Q=0
即可得到极值条件下的参数值,即为估计值 β 0 ^ \widehat{\beta _{0}} β0 β 1 ^ \widehat{\beta _{1}} β1 。整理后得结果:
{ β 0 ^ = y ‾ − β 1 ^ x ‾ β 1 ^ = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 \begin{cases} \widehat{\beta_{0}}=\overline{y}-\widehat{\beta _{1}}\overline{x} \\[2ex] \widehat{\beta_{1}}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \end{cases} β0 =yβ1 xβ1 =i=1n(xix)2i=1n(xix)(yiy)

四、极大似然估计

最小二乘法从扰动项 ε \varepsilon ε的最小值入手,而极大似然估计从扰动项 ε \varepsilon ε的概率分布入手。
最大似然估计的思想是利用总体的分布密度(连续变量)或概率分布(离散变量)的表达式、以及样本提供的信息建立求解未知参数估计量的方法。这种方法将能够使用的样本视为从总体中被抽中的概率最大的样本,所以这些样本的联合分布密度或联合概率分布为最大值时,模型的估计值最准确。
对于线性回归,假设 ε \varepsilon ε服从均值为0、方差为 σ 2 \sigma ^{2} σ2正态分布, x i x_{i} xi是与 y i y_{i} yi相关的非随机样本,则 y i ∼ N ( β 0 + β 1 x i , σ 2 ) y_{i}\sim N(\beta _{0}+\beta _{1}x_{i},\sigma ^{2}) yiN(β0+β1xi,σ2) y i y_{i} yi的分布密度函数为:
f i ( y i ) = 1 2 π σ e x p [ − 1 2 σ 2 [ y i − ( β 0 + β 1 x i ) ] 2 ] f_{i}\left ( y_{i} \right )=\frac{1}{\sqrt{2\pi}\sigma }exp\left [ -\frac{1}{2\sigma ^{2}}\left [ y_{i}-(\beta _{0}+\beta _{1}x_{i}) \right ]^{2} \right ] fi(yi)=2π σ1exp[2σ21[yi(β0+β1xi)]2]
样本 y 1 , y 2 , . . . , y n y_{1},y_{2},...,y_{n} y1,y2,...,yn的联合密度分布函数为:
L ( y 1 , y 2 , . . . , y n ; β 0 , β 1 ) = ∏ i = 1 n f i ( y i ) = ( 2 π σ 2 ) − n 2 e x p [ − 1 2 σ 2 ∑ i = 1 n [ y i − ( β 0 + β 1 x i ) ] 2 ] L(y_{1},y_{2},...,y_{n};\beta _{0},\beta _{1})=\prod_{i=1}^{n}f_{i}\left ( y_{i} \right )=(2 \pi \sigma^2)^{-\frac{n}{2}}exp\left [ -\frac{1}{2\sigma ^{2}}\sum_{i=1}^{n} \left [ y_{i}-(\beta _{0}+\beta _{1}x_{i}) \right ]^{2} \right ] L(y1,y2,...,yn;β0,β1)=i=1nfi(yi)=(2πσ2)2nexp[2σ21i=1n[yi(β0+β1xi)]2]
取对数后:
l n ( L ) = − n 2 l n ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n [ y i − β 0 − β 1 x i ] 2 ln(L)=-\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}[y_{i}-\beta_{0}-\beta_{1}x_{i}]^2 ln(L)=2nln(2πσ2)2σ21i=1n[yiβ0β1xi]2
等价于求 ∑ i = 1 n [ y i − β 0 − β 1 x i ] 2 \sum_{i=1}^{n}[y_{i}-\beta_{0}-\beta_{1}x_{i}]^2 i=1n[yiβ0β1xi]2的极小值,回到最小二乘法的原理。整理后得结果:
{ β 0 ^ = y ‾ − β 1 ^ x ‾ β 1 ^ = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 \begin{cases} \widehat{\beta_{0}}=\overline{y}-\widehat{\beta _{1}}\overline{x} \\[2ex] \widehat{\beta_{1}}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \end{cases} β0 =yβ1 xβ1 =i=1n(xix)2i=1n(xix)(yiy)
参考书:《应用回归分析》何晓群

  • 6
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值