线性回归完整整理

1 线性回归的定义

监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面

对于一元线性回归模型,假设从总体中获取了 n n n组观察值 ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , ⋯   , ( X n , Y n ) \left(X_{1}, Y_{1}\right), \quad\left(X_{2}, Y_{2}\right), \cdots, \left(X_{n}, Y_{n}\right) (X1,Y1),(X2,Y2),,(Xn,Yn),对于平面中的这 n n n个点,可以用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。

选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:

  • 用**“残差和最小”**确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
  • 用**“残差绝对值和最小”**确定直线位置也是一个途径。但绝对值的计算比较麻烦。
  • 最小二乘法的原则是以**“残差平方和最小”**确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

2 一元线性回归分析的普通最小二乘法

普通最小二乘法(Ordinary Least Squares,OLS):所选择的回归模型应该使所有观测值得残差平方和达到最小,即采用残差平方和损失函数

首先介绍一元线性回归,定义数据为: X = { ( x 1 , y 1 ) , ⋯   , ( x m , y m ) } X=\left\{\left(x_{1}, y_{1}\right), \cdots,\left(x_{m}, y_{m}\right)\right\} X={ (x1,y1),,(xm,ym)}

定义回归模型为: y = x β + β 0 y=x \beta+\beta_{0} y=xβ+β0

样本 ( X i , Y i ) \left(X_{i}, Y_{i}\right) (Xi,Yi)的误差为: e i = Y i − β ^ 0 − β ^ 1 X i e_{i}=Y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} X_{i} ei=Yiβ^0β^1Xi

定义残差平方和损失函数 S ( β ) = ∑ i = 0 m ( y i − x i β − β 0 ) 2 S(\beta)=\sum_{i=0}^{m}\left(y_{i}-x_{i} \beta-\beta_{0}\right)^{2} S(β)=i=0m(yixiββ0)2

通过最小化损失函数来确定这条直线,即确定: β , β 0 \beta, \beta_{0} β,β0

β , β 0 \beta, \beta_{0} β,β0分别求导可得:
∂ S ( β ) ∂ β = ∑ i = 1 m 2 ( y i − x i β − β 0 ) ( − x i ) = ∑ i = 1 m ( − 2 ) ( x i y i − x i 2 β − β 0 x i ) = 2 ∑ i = 1 m ( x i 2 β + β 0 x i − x i y i ) \begin{aligned} \frac{\partial S(\beta)}{\partial \beta} &=\sum_{i=1}^{m} 2\left(y_{i}-x_{i} \beta-\beta_{0}\right)\left(-x_{i}\right) \\ &=\sum_{i=1}^{m}(-2)\left(x_{i} y_{i}-x_{i}^{2} \beta-\beta_{0} x_{i}\right) \\ &=2 \sum_{i=1}^{m}\left(x_{i}^{2} \beta+\beta_{0} x_{i}-x_{i} y_{i}\right) \end{aligned} βS(β)=i=1m2(yixiββ0)(xi)=i=1m(2)(xiyixi2ββ0xi)=2i=1m(xi2β+β0xixiyi)

∂ S ( β ) ∂ β 0 = ∑ i = 1 m 2 ( y i − x i β − β 0 ) ( − 1 ) = ∑ i = 1 m ( − 2 ) ( y i − x i β − β 0 ) = 2 ∑ i = 1 m ( x i β + β 0 − y i ) = 2 ( m β ∑ i = 1 m ( x i ) m + m β 0 − m ∑ i = 1 m y i m ) \begin{aligned} \frac{\partial S(\beta)}{\partial \beta_{0}} &=\sum_{i=1}^{m} 2\left(y_{i}-x_{i} \beta-\beta_{0}\right)(-1) \\ &=\sum_{i=1}^{m}(-2)\left(y_{i}-x_{i} \beta-\beta_{0}\right) \\ &=2 \sum_{i=1}^{m}\left(x_{i} \beta+\beta_{0}-y_{i}\right) \\ &=2\left(m \beta \frac{\sum_{i=1}^{m}\left(x_{i}\right)}{m}+m \beta_{0}-m \frac{\sum_{i=1}^{m} y_{i}}{m}\right) \end{aligned} β0S(β)=i=1m2(yixiββ0)(1)=i=1m(2)(yixiββ0)=2i=1m(xiβ+β0yi)=2(mβmi=1m(xi)+mβ0mmi=1myi)
x ˉ = ∑ i = 1 m ( x i ) m , y ˉ = ∑ i = 1 m y i m \bar{x}=\frac{\sum_{i=1}^{m}\left(x_{i}\right)}{m}, \bar{y}=\frac{\sum_{i=1}^{m} y_{i}}{m} xˉ=mi=1m(xi),yˉ=mi=1myi

则第二个偏导结果为:
∂ S ( β ) ∂ β 0 = 2 m ( β x ˉ + β 0 − y ˉ ) \frac{\partial S(\beta)}{\partial \beta_{0}}=2 m\left(\beta \bar{x}+\beta_{0}-\bar{y}\right) β0S(β)=2m(βxˉ+β0yˉ)
令第二个偏导等于0:
2 m ( β x ˉ + β 0 − y ˉ ) = 0 β 0 = y ˉ − β x ˉ \begin{array}{c}{2 m\left(\beta \bar{x}+\beta_{0}-\bar{y}\right)=0} \\ {\beta_{0}=\bar{y}-\beta \bar{x}}\end{array} 2m(βxˉ+β0yˉ)=0β0=yˉβxˉ
令第一个偏导结果等于0,并将上述 β 0 \beta_0 β0代入得:
∂ S ( β ) ∂ β = 0 \frac{\partial S(\beta)}{\partial \beta}=0 βS(β)=0

2 ∑ i = 1 m [ x i 2 β + ( y ˉ − β x ˉ ) x i − x i y i ] = 0 2 \sum_{i=1}^{m}\left[x_{i}^{2} \beta+(\bar{y}-\beta \bar{x}) x_{i}-x_{i} y_{i}\right]=0 2i=1m[xi2β+(yˉβxˉ)xixiyi]=0

β ( ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i ) = ∑ i = 1 m x i y i − y ˉ ∑ i = 1 m x i \beta\left(\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}\right)=\sum_{i=1}^{m} x_{i} y_{i}-\bar{y} \sum_{i=1}^{m} x_{i} β(i=1mxi2

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值