第二周经典回归分析

最新推荐文章于 2022-03-15 20:55:32 发布

makisekurisu8

最新推荐文章于 2022-03-15 20:55:32 发布

阅读量358

点赞数

分类专栏：机器学习课程学习笔记

本文链接：https://blog.csdn.net/makisekurisu8/article/details/104627711

版权

机器学习课程学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、线性回归定义

1、一般模型（假设） $Y=X\beta+\varepsilon$
· X是(n * p)的矩阵，p是特征数量，n是样本数，Y是输出结果
· $\beta$ 是(p*1)的矩阵，并根据数据进行估计
·假定 $E[\varepsilon]=0,Var(\varepsilon)=\sigma^{2}I_{n},\sigma$ 未知,
$\quad Y$ 是随机向量，且 $E[Y]=X\beta$

2、衡量 $\beta$ 的估计值 $\bar{\beta}$ 的好坏程度

(1) $\bar{\beta}$ 是否接近 $\beta$
→ $\bar{\beta}$ 与 $\beta$ 之间的均方误差(Mean Square Error)

$E[||\bar{\beta}-\beta||^{2}]=E[<\bar{\beta}-\beta,\bar{\beta}-\beta>]$

$=E[<\bar{\beta}-E\bar{\beta}+E\bar{\beta}-\beta,\bar{\beta}-E\bar{\beta}+E\bar{\beta}-\beta>]$

$=E[||\bar{\beta}-E\bar{\beta}||^{2}+2<\bar{\beta}-E\bar{\beta},E\bar{\beta}-\beta>+||E\bar{\beta}-\beta||^{2}]$

$=E[||\bar{\beta}-E\bar{\beta}||^{2}]+||E\bar{\beta}-\beta||^{2}$
$\qquad\quad 方差\qquad\qquad\quad偏差$

(2) $x\bar{\beta}$ 能否很好地估计新输入样本 $x_{(1*p)}$ 对应的输出值y
→预测误差(Pridiction Error/Generalization Error)

$E[(y-x\bar{\beta})^{2}]=E[(y-x\beta+x\beta-x\bar{\beta})^{2}]$
$=E[(y-x\beta)^{2}+2(y-x\beta)(x\beta-x\bar{\beta})+(x\beta-x\bar{\beta})^{2}]$
$=E[(y-x\beta)^{2}]+E[(x\beta-x\bar{\beta})^{2}]\qquad(E[y]=x\beta)$
$=\sigma^{2}+E[(x\beta-E(x\bar{\beta})+E(x\bar{\beta})-x\bar{\beta})^{2}]$
$=\sigma^{2}+E[(x\bar{\beta}-E(x\bar{\beta}))^{2}]+(E(x\bar{\beta})-x\beta)^{2}$
$\quad噪声\qquad\quad 方差\qquad\qquad\quad偏差$
$\qquad\qquad方差偏差分解$

3、方差-偏差窘境
在这里插入图片描述
4、偏差、方差与过拟合、欠拟合

5、方差-偏差分解说明了什么？

二、最小二乘算法与岭回归
1、OLS
①想法：最小化残差平方和
$\quad\mathop{\arg\min}_{\theta}||Y-X\beta||_{2}$
$\quad\hat{\beta}^{ols}=(X^{T}X)^{-1}X^{T}Y$
假设 $\quad rank((X^{T}X)^{-1})=p$
②几何含义：高维向量在低维向量空间中的投影
在这里插入图片描述

③相关性质：
无偏性： $E\hat{\beta}^{ols}=E\beta$
方差： $Var(\hat{\beta}^{ols})=\sigma^{2}(X^{T}X)^{-1}$
MSE： $MSE=E[||\hat{\beta}^{ols}-E\hat{\beta}^{ols}||^{2}]=\sum_{n=1}^{p}\lambda_{i}^{-1}$
共线性？→
2、岭回归
①岭回归定义，两种定义等价，实质是对 $\beta$ 内积大小做出限制
②岭回归参数估计与OLS参数估计之间的关系→岭回归进行了特征缩减，但特征缩减不足
$\quad\hat{\beta}^{ridge}=(X^{T}X+\lambda I)^{-1}X^{T}Y$
$\quad\hat{\beta}^{ridge}=[I+\lambda(X^{T}X)^{-1}]^{-1}\hat{\beta}^{ols}=:Z\hat{\beta}^{ols}$
③岭回归估计性质：
有偏： $E(\hat{\beta}^{ridge})=Z\beta$
方差： $Var(\hat{\beta}^{ridge})=\sigma^{2}Z(X^{T}X)^{-1}Z^{T}$
④方差-偏差分解(MSE)
$E[||\hat{\beta}^{ridge}-\beta||^{2}]=$
$\quad E[(\hat{\beta}^{ols}-\beta)^{T}Z^{T}Z(\hat{\beta}^{ols}-\beta)]+(Z\beta-\beta)^{T}(Z\beta-\beta)=:E[L(\lambda)]$
其中：
在这里插入图片描述

定理一： $\gamma_{1}是关于\lambda的单调递减函数$
定理二： $\gamma_{2}是关于\lambda的单调递增函数$

定理三： $\lambda>0,E[L(\lambda)]≤E[L(0)]=\sigma^{2}\sum_{i=1}^{p}\frac{1}{\lambda_{i}}$
在这里插入图片描述

三、Lasso和lars
1、变量选择
当变量数( p )多于样本数(n)时，更一般的，在高维的情况下，自由度不足以估计所有的回归系数。需进行变量选择。最直观的想法是把所有子变量集的组合都列出来，然后每一个集合都进行最小二乘回归。得到若干个模型，然后根据某种准则从中选出最好的。
这种普查型的择优选择，显然计算量会很大。因此我们需要寻找一条路径，在这条路径上进行优选，以保证最终得到的最优模型和普查所有模型下选出的最优模型差不多。

2、线性变量选择模型
在这里插入图片描述
→前向逐步回归

先选择和响应最相关的变量，进行最小二乘回归。然后在这个模型的基础上，再选择和此时残差相关度最高的（也就是相关度次高）的变量（而忽视了与残差无关但是与前面已选变量相关的变量），加入模型重新最小二乘回归。之后再如法继续，直到在某些度量模型的最优性准则之下达到最优，从而选取一个最优的变量子集进行回归分析。优点：比原模型更简便、易解释、提高精确度，方差变小；缺点：牺牲准确性，有偏

→前向梯度回归
先选择和响应最相关的变量X1，找到后不急于做最小二乘回归，而是在变量的solution path上一点一点的前进(所谓solution path 是指一个方向，逐步回归是在这个方向上进行)，每前进一点，都要计算一下当前的残差和原有的所有变量的相关系数，找出绝对值最大的相关系数对应的变量X2。此时把X2也加入回归模型中，此时回归模型在X1上的系数已经确定了，改为在X2的solution path上前进，直到找到第三个变量X3，使得X3的与当前残差的相关系数绝对值最大。这样一步一步进行下去。每一步都是很多小步组成。直到某个模型判定准则生效，停止这个步骤。在每一个solution path上的计算都是线性的。总体的solution path是分段线性的。

3、Lasso
在这里插入图片描述
岭回归是L2正则化，而Lasso是L1正则化。

4、lars
①响应最相关的变量X1→X2, s.t. X1、X2与残差相关度相同→以二者角平分线为新的逼近方向，继续前进
②以此重复，直至残差够小或变量取完

拓展：Lq正则化(q<1，稀疏性更好)、弹性网络正则化