学习笔记《统计学习基础》第三章回归的线性方法

最新推荐文章于 2024-07-22 22:33:49 发布

LittleFish0820

最新推荐文章于 2024-07-22 22:33:49 发布

阅读量246

点赞数

本文链接：https://blog.csdn.net/m0_46459047/article/details/111027845

版权

第三章回归的线性方法

3.1 引言
3.2 LR and LS
- 3.2.1 例：前列腺癌
- 3.2.2 高斯-马尔科夫定理
3.3 从简单的一元回归到多元回归
- 3.3.1 多元输出
3.4 子集选择和系数收缩

3.1 引言

线性回归模型假定回归函数 $E (Y ∣ X)$ 在输入 $X_1,X_2,...,X_p$ 上是线性的。

3.2 LR and LS

输入: $X=(X_1,X_2,...X_p)$
输出: $预测实数值输出 Y$
模型: $f(X)=\beta_0+\sum_{j=1}^pX_j\beta_j$

训练数据集: ${(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$
任务: 通过训练数据集估计 $\beta$
$x_i=(x_{i1},x_{i2},...,x_{ip})^T$ 是第 $i$ 个数据的特征向量

最小二乘：极小化残差平方和
$RSS(\beta)=\sum_{i=1}^N(y_i-f(x_i))^2$
$\qquad\quad\quad=\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j)^2$
记 $x_i=(1,x_{i1},x_{i2},...,x_{ip})^T,\beta=(\beta_0,\beta_1,...,\beta_p)^T$
$X$ 为 $N\times(p+1)$ 矩阵
则 $RSS(\beta)=(y-X\beta)^T(y-X\beta)$
关于 $\beta$ 微分，得到
$\frac{\partial RSS(\beta)}{\partial\beta}=-2X^T(y-X\beta)=0$
$\frac{\partial^2RSS(\beta)}{\partial\beta\partial\beta^T}=-2X^TX$
若X是列满秩的，则 $X^TX$ 是正定的
故 $X^T(y-X\beta)=0$ ，解得 $\hat{\beta}=(X^TX)^{-1}X^Ty$

在输入向量 $x_0$ 上的预测值由 $\hat{f}(x_0)=(1:x_0^T)\hat{\beta}$ 给出
在训练输入上的拟合值为 $\hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty$
其中， $\hat{y_i}=\hat{f}(x_i)$
$H=X(X^TX)^{-1}X^T$ 称为帽子矩阵，因为它给 $y$ 加了个帽子；也可以称投影矩阵（几何意义）

注： $X$ 的列向量可能不是线性独立的，从而 $X$ 不是满秩的

增加假定：① $y_i$ 不相关，且具有常数方差 $\sigma^2$ ；② $x_i$ 是非随机的。
$Var(\hat{\beta})=(X^TX)^{-1}\sigma^2$
$\hat{\sigma}^2=\frac{1}{N-p-1}\sum_{i=1}^N(y_i-\hat{y}_i)^2$

再加假定： $Y=E(Y|X_1,...,X_p)+\epsilon$
$\quad\quad\quad\quad\quad=\beta_0+\sum_{j=1}^pX_j\beta_j+\epsilon$
误差 $\epsilon$ 是高斯随机变量，期望为0，方差为 $\sigma^2$ ，记做 $\epsilon\sim N(0,\sigma^2)$

$\hat{\beta}\sim N(\beta,(X^TX)^{-1}\sigma^2)$
$(N-p-1)\hat{\sigma}^2\sim\sigma^2\mathcal{X}^2_{N-p-1}$
使用上述分布性质，可以形成参数 $\beta_j$ 的假设检验和置信区间。
$H_0:\beta_j=0$ $v . s .$ $H_1:\beta_j\neq0$
$z_j=\frac{\hat{\beta_j}}{\hat{\sigma}\sqrt{v_j}}$ , $v_j$ 是 $X^TX)^{-1}$ 的第 $j$ 个对角线元素
$F$ 统计量： $F=\frac{(RSS_0-RSS_1)/(p_1-p_0)}{RSS_1/(N-p_1-1)}$

3.2.1 例：前列腺癌

3.2.2 高斯-马尔科夫定理

统计学最著名的结果之一：在所有的线性无偏估计中，参数 $\beta$ 的最小二乘估计具有最小方差。但是限制无偏估计不一定是明智的选择。

如果 $a^T\beta$ 的其他无偏估计 $\tilde{\theta}=c^Ty$ ，即 $E(c^Ty)=a^T\beta$ ，则： $Var(a^T\hat{\beta})\le Var(c^Ty)$

3.3 从简单的一元回归到多元回归

3.3.1 多元输出

3.4 子集选择和系数收缩

LittleFish0820

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
学习笔记《统计学习基础》第三章回归的线性方法

第三章回归的线性方法3.1 引言3.2 LR and LS3.1 引言线性回归模型假定回归函数E(Y∣X)E(Y|X)E(Y∣X)在输入X1,X2,...,XpX_1,X_2,...,X_pX1,X2,...,Xp上是线性的。3.2 LR and LS输入: X=(X1,X2,...Xp)X=(X_1,X_2,...X_p)X=(X1,X2,...Xp)输出: 预测实数值输出Y预测实数值输出Y预测实数值输出Y模型: f(X)=β0+∑j=1pXjβjf(X)=\beta_0+\su
复制链接

扫一扫