第二周经典回归分析

一、线性回归定义

1、一般模型(假设) Y = X β + ε Y=X\beta+\varepsilon Y=Xβ+ε
· X是(n * p)的矩阵,p是特征数量,n是样本数,Y是输出结果
· β \beta β是(p*1)的矩阵,并根据数据进行估计
·假定 E [ ε ] = 0 , V a r ( ε ) = σ 2 I n , σ E[\varepsilon]=0,Var(\varepsilon)=\sigma^{2}I_{n},\sigma E[ε]=0,Var(ε)=σ2In,σ未知,
Y \quad Y Y是随机向量,且 E [ Y ] = X β E[Y]=X\beta E[Y]=Xβ

2、衡量 β \beta β的估计值 β ˉ \bar{\beta} βˉ的好坏程度

(1) β ˉ \bar{\beta} βˉ是否接近 β \beta β
β ˉ \bar{\beta} βˉ β \beta β之间的均方误差(Mean Square Error)

E [ ∣ ∣ β ˉ − β ∣ ∣ 2 ] = E [ < β ˉ − β , β ˉ − β > ] E[||\bar{\beta}-\beta||^{2}]=E[<\bar{\beta}-\beta,\bar{\beta}-\beta>] E[βˉβ2]=E[<βˉβ,βˉβ>]

= E [ < β ˉ − E β ˉ + E β ˉ − β , β ˉ − E β ˉ + E β ˉ − β > ] =E[<\bar{\beta}-E\bar{\beta}+E\bar{\beta}-\beta,\bar{\beta}-E\bar{\beta}+E\bar{\beta}-\beta>] =E[<βˉEβˉ+Eβˉβ,βˉEβˉ+Eβˉβ>]

= E [ ∣ ∣ β ˉ − E β ˉ ∣ ∣ 2 + 2 < β ˉ − E β ˉ , E β ˉ − β > + ∣ ∣ E β ˉ − β ∣ ∣ 2 ] =E[||\bar{\beta}-E\bar{\beta}||^{2}+2<\bar{\beta}-E\bar{\beta},E\bar{\beta}-\beta>+||E\bar{\beta}-\beta||^{2}] =E[βˉEβˉ2+2<βˉEβˉ,Eβˉβ>+Eβˉβ2]

= E [ ∣ ∣ β ˉ − E β ˉ ∣ ∣ 2 ] + ∣ ∣ E β ˉ − β ∣ ∣ 2 =E[||\bar{\beta}-E\bar{\beta}||^{2}]+||E\bar{\beta}-\beta||^{2} =E[βˉEβˉ2]+Eβˉβ2
方 差 偏 差 \qquad\quad 方差\qquad\qquad\quad偏差

(2) x β ˉ x\bar{\beta} xβˉ能否很好地估计新输入样本 x ( 1 ∗ p ) x_{(1*p)} x(1p)对应的输出值y
→预测误差(Pridiction Error/Generalization Error)

E [ ( y − x β ˉ ) 2 ] = E [ ( y − x β + x β − x β ˉ ) 2 ] E[(y-x\bar{\beta})^{2}]=E[(y-x\beta+x\beta-x\bar{\beta})^{2}] E[(yxβˉ)2]=E[(yxβ+xβxβˉ)2]
= E [ ( y − x β ) 2 + 2 ( y − x β ) ( x β − x β ˉ ) + ( x β − x β ˉ ) 2 ] =E[(y-x\beta)^{2}+2(y-x\beta)(x\beta-x\bar{\beta})+(x\beta-x\bar{\beta})^{2}] =E[(yxβ)2+2(yxβ)(xβxβˉ)+(xβxβˉ)2]
= E [ ( y − x β ) 2 ] + E [ ( x β − x β ˉ ) 2 ] ( E [ y ] = x β ) =E[(y-x\beta)^{2}]+E[(x\beta-x\bar{\beta})^{2}]\qquad(E[y]=x\beta) =E[(yxβ)2]+E[(xβxβˉ)2](E[y]=xβ)
= σ 2 + E [ ( x β − E ( x β ˉ ) + E ( x β ˉ ) − x β ˉ ) 2 ] =\sigma^{2}+E[(x\beta-E(x\bar{\beta})+E(x\bar{\beta})-x\bar{\beta})^{2}] =σ2+E[(xβE(xβˉ)+E(xβˉ)xβˉ)2]
= σ 2 + E [ ( x β ˉ − E ( x β ˉ ) ) 2 ] + ( E ( x β ˉ ) − x β ) 2 =\sigma^{2}+E[(x\bar{\beta}-E(x\bar{\beta}))^{2}]+(E(x\bar{\beta})-x\beta)^{2} =σ2+E[(xβˉE(xβˉ))2]+(E(xβˉ)xβ)2
噪 声 方 差 偏 差 \quad噪声\qquad\quad 方差\qquad\qquad\quad偏差
方 差 偏 差 分 解 \qquad\qquad方差偏差分解

3、方差-偏差窘境
在这里插入图片描述
4、偏差、方差与过拟合、欠拟合
在这里插入图片描述
5、方差-偏差分解说明了什么?
在这里插入图片描述

二、最小二乘算法与岭回归
1、OLS
①想法:最小化残差平方和
arg ⁡ min ⁡ θ ∣ ∣ Y − X β ∣ ∣ 2 \quad\mathop{\arg\min}_{\theta}||Y-X\beta||_{2} argminθYXβ2
β ^ o l s = ( X T X ) − 1 X T Y \quad\hat{\beta}^{ols}=(X^{T}X)^{-1}X^{T}Y β^ols=(XTX)1XTY
假设 r a n k ( ( X T X ) − 1 ) = p \quad rank((X^{T}X)^{-1})=p rank((XTX)1)=p
②几何含义:高维向量在低维向量空间中的投影
在这里插入图片描述

③相关性质:
无偏性: E β ^ o l s = E β E\hat{\beta}^{ols}=E\beta Eβ^ols=Eβ
方差: V a r ( β ^ o l s ) = σ 2 ( X T X ) − 1 Var(\hat{\beta}^{ols})=\sigma^{2}(X^{T}X)^{-1} Var(β^ols)=σ2(XTX)1
MSE: M S E = E [ ∣ ∣ β ^ o l s − E β ^ o l s ∣ ∣ 2 ] = ∑ n = 1 p λ i − 1 MSE=E[||\hat{\beta}^{ols}-E\hat{\beta}^{ols}||^{2}]=\sum_{n=1}^{p}\lambda_{i}^{-1} MSE=E[β^olsEβ^ols2]=n=1pλi1
共线性?→
2、岭回归
①岭回归定义,两种定义等价,实质是对 β \beta β内积大小做出限制
②岭回归参数估计与OLS参数估计之间的关系→岭回归进行了特征缩减,但特征缩减不足
β ^ r i d g e = ( X T X + λ I ) − 1 X T Y \quad\hat{\beta}^{ridge}=(X^{T}X+\lambda I)^{-1}X^{T}Y β^ridge=(XTX+λI)1XTY
β ^ r i d g e = [ I + λ ( X T X ) − 1 ] − 1 β ^ o l s = : Z β ^ o l s \quad\hat{\beta}^{ridge}=[I+\lambda(X^{T}X)^{-1}]^{-1}\hat{\beta}^{ols}=:Z\hat{\beta}^{ols} β^ridge=[I+λ(XTX)1]1β^ols=:Zβ^ols
③岭回归估计性质:
有偏: E ( β ^ r i d g e ) = Z β E(\hat{\beta}^{ridge})=Z\beta E(β^ridge)=Zβ
方差: V a r ( β ^ r i d g e ) = σ 2 Z ( X T X ) − 1 Z T Var(\hat{\beta}^{ridge})=\sigma^{2}Z(X^{T}X)^{-1}Z^{T} Var(β^ridge)=σ2Z(XTX)1ZT
④方差-偏差分解(MSE)
E [ ∣ ∣ β ^ r i d g e − β ∣ ∣ 2 ] = E[||\hat{\beta}^{ridge}-\beta||^{2}]= E[β^ridgeβ2]=
E [ ( β ^ o l s − β ) T Z T Z ( β ^ o l s − β ) ] + ( Z β − β ) T ( Z β − β ) = : E [ L ( λ ) ] \quad E[(\hat{\beta}^{ols}-\beta)^{T}Z^{T}Z(\hat{\beta}^{ols}-\beta)]+(Z\beta-\beta)^{T}(Z\beta-\beta)=:E[L(\lambda)] E[(β^olsβ)TZTZ(β^olsβ)]+(Zββ)T(Zββ)=:E[L(λ)]
其中:
在这里插入图片描述
在这里插入图片描述
定理一: γ 1 是 关 于 λ 的 单 调 递 减 函 数 \gamma_{1}是关于\lambda的单调递减函数 γ1λ在这里插入图片描述
定理二: γ 2 是 关 于 λ 的 单 调 递 增 函 数 \gamma_{2}是关于\lambda的单调递增函数 γ2λ

定理三: λ > 0 , E [ L ( λ ) ] ≤ E [ L ( 0 ) ] = σ 2 ∑ i = 1 p 1 λ i \lambda>0,E[L(\lambda)]≤E[L(0)]=\sigma^{2}\sum_{i=1}^{p}\frac{1}{\lambda_{i}} λ>0,E[L(λ)]E[L(0)]=σ2i=1pλi1
在这里插入图片描述

三、Lasso和lars
1、变量选择
当变量数( p )多于样本数(n)时,更一般的,在高维的情况下,自由度不足以估计所有的回归系数。需进行变量选择。最直观的想法是把所有子变量集的组合都列出来,然后每一个集合都进行最小二乘回归。得到若干个模型,然后根据某种准则从中选出最好的。
这种普查型的择优选择,显然计算量会很大。因此我们需要寻找一条路径,在这条路径上进行优选,以保证最终得到的最优模型和普查所有模型下选出的最优模型差不多。

2、线性变量选择模型
在这里插入图片描述
→前向逐步回归

先选择和响应最相关的变量,进行最小二乘回归。然后在这个模型的基础上,再选择和此时残差相关度最高的(也就是相关度次高)的变量(而忽视了与残差无关但是与前面已选变量相关的变 量),加入模型重新最小二乘回归。之后再如法继续,直到在某些度量模型的最优性准则之下达到最优,从而选取一个最优的变量子集进行回归分析。优点:比原模型更简便、易解释、提高精确度,方差变小;缺点:牺牲准确性,有偏

→前向梯度回归
先选择和响应最相关的变量X1,找到后不急于做最小二乘回归, 而是在变量的solution path上一点一点的前进(所谓solution path 是指一个方向,逐步回归是在这个方向上进行),每前进一点,都要计算一下当前的残差和原有的所有变量的相关系数,找出绝对值最大的相关系数对应的变量X2。此时把X2也加入回归模型中,此时回归模型在X1上的系数已经确定了,改为在X2的solution path上前进,直到找到第三个变量X3,使得X3的与当前残差的相关系数绝对值最大。这样一步一步进行下去。每一步都是很多小步组成。直到某个模型判定准则生效,停止这个步骤。在每 一个solution path上的计算都是线性的。总体的solution path是分段线性的。

3、Lasso
在这里插入图片描述
岭回归是L2正则化,而Lasso是L1正则化。
在这里插入图片描述
4、lars
①响应最相关的变量X1→X2, s.t. X1、X2与残差相关度相同→以二者角平分线为新的逼近方向,继续前进
②以此重复,直至残差够小或变量取完
在这里插入图片描述
拓展:Lq正则化(q<1,稀疏性更好)、弹性网络正则化

5、小结

  1. 正则化参数的选取在实际数据分析中非常重要。
  2. 正则化更深层的含义是避免过拟合。
  3. 很多时候LASSO/Lars 作为特征工程中的特征提取的方
    法进行运用。
  4. 四种算法很容易推广到非线性回归的情形。

四、非线性基岭回归
·非线性基模型
在这里插入图片描述

五、问题
1.简答题
①你对方差、偏差分解的理解
②证明岭回归算法两种定义的等价性
③岭回归中正则化系数如何选取
④查阅机器学习算法中的超参数定义与交叉验证方法的定义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值