The Elements of Statistical Learning-线性模型和最小二乘法（5）

最新推荐文章于 2021-11-30 18:09:05 发布

江河湖海times

最新推荐文章于 2021-11-30 18:09:05 发布

阅读量373

点赞数

分类专栏：机器学习理论知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiang_he_hu_hai/article/details/81256334

版权

机器学习理论知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

考虑到整理的方便，后面每一个章节都放在一个文件中，然后想到哪写到哪

线性模型和最小二乘法

Input vector: $X^T=(X_1,X_2,\dots,X_p)$

Predict Output: $Y$

By the linear regression model:

f (X) = β_{0} + \sum_{j = 1}^{p} X_{j} β_{j}

$f(X)=\beta_0+\sum_{j=1}^pX_j\beta_j$
Assumes regression function

E(Y|X) E ( Y | X ) $E(Y|X)$ is linear or reasonable approximation.

$X_j$ can come from difference sources.

Least squares estimation, the residual sum of squares:

R S S (β) = \sum i = 1 N (y i - f (x i)) 2 = \sum i = 1 N (y i - β 0 - \sum j = 1 p x i j β j) (71) (72)

$\begin{align} RSS(\beta) &=\sum_{i=1}^N(y_i-f(x_i))^2 \\ &=\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j) \end{align}$
最小二乘估计描述图

最小二乘估计描述图

把RSS写成矩阵形式就是

R S S (β) = (y - X β) T ((y - X β))

$RSS(\beta)=(y-X\beta)^T((y-X\beta))$
很容易计算其最小值点：

β^=(XTX)−1XTy β ^ = ( X T X ) − 1 X T y $\hat \beta=(X^TX)^{-1}X^Ty$
下图可以看出，计算最小二乘的几何意义就是相当于在黄色低维超平面上找一个向量

y^ y ^ $\hat y$ 来近似原来的向量

y y $y$ ，很显然在

y - \hat{y}

$y-\hat y$ 与黄色低维超平面垂直的时候

y^ y ^ $\hat y$ 与

y y $y$ 最近。
这里写图片描述

这里写图片描述

因此，我们又可以得出预测值与真实之的关系：

\hat{y} = X \hat{β} = X (X^{T} X)^{- 1} X^{T} y = H y

$\hat y= X\hat \beta= X(X^TX)^{-1}X^Ty=Hy$
The matrix

H H $H$ sometimes called the “hat” matrix OR projection matrix, because it puts the hat on

y

$y$ .
如果这里

y y $y$ 是独立的，并且方差(或者协方差)为常值

σ^{2}

$\sigma ^2$ ，我们很容易就能计算出

β^ β ^ $\hat \beta$ 的方差。

为了表示方便，这里仅仅用 ² 表示乘以自身转置。

V a r (β^) = E (β^- E β^) (β^- E β^) T = E ((X T X) - 1 X T y - E ((X T X) - 1 X T y)) 2 = [(X T X) - 1 X T] [(X T X) - 1 X T] T E (y - E Y) 2 = (X T X) - 1 σ 2

$\begin{align*} Var(\hat \beta) &=E(\hat \beta-E\hat \beta) (\hat \beta-E\hat \beta) ^T\\ &=E((X^TX)^{-1}X^Ty-E((X^TX)^{-1}X^Ty))^2\\ &=[(X^TX)^{-1}X^T][(X^TX)^{-1}X^T]^TE(y-EY)^2\\ &=(X^TX)^{-1}\sigma^2 \end{align*}$
可以由下面的式子来估计

σ2 σ 2 $\sigma^2$ :

σ^2 = 1 N - p - 1 \sum i = 1 N (y i - y^i) 2

$\hat \sigma^2=\frac 1{N-p-1}\sum_{i=1}^N(y_i-\hat y_i)^2$
这里分母去

N−p−1 N − p − 1 $N-p-1$ 而不是

N N $N$ 可以参考下面以为形式的证明：
这里写图片描述

这里写图片描述

这里写图片描述

这里如果

{\hat{σ}}^{2}

$\hat \sigma^2$ 是

σ2 σ 2 $\sigma^2$ 的一个无偏估计就有

E(σ^2)=σ2 E ( σ ^ 2 ) = σ 2 $E(\hat \sigma^2)=\sigma^2$ ，证明参考这里的方差偏差分解公式的推导。

如果我们假设 $f(X)=\beta_0+\sum_{j=1}^pX_j\beta_j$ 是对 $Y$ 的均值的正确估计，再假设 $Y$ 的离散在其期望周围是可加和高斯的。也就是说：

Y = E (Y | X 1, \dots, X - + + p) + ε = β 0 + \sum j = 1 p X j β j + ε

$\begin{align*} Y &=E(Y|X_1,\dots,X -++_p)+\varepsilon \\ &= \beta_0+\sum_{j=1}^p X_j\beta_j+\varepsilon \end{align*}$
其中

ε∼N(0,σ2) ε ∼ N ( 0 , σ 2 ) $\varepsilon\sim N(0,\sigma^2)$
结合上面的结论，我们就可以得到

β^\sim N (β, (X T, X) - 1 σ 2)

$\hat\beta\sim N(\beta,(X^T,X)^{-1}\sigma^2)$

江河湖海times

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
The Elements of Statistical Learning-线性模型和最小二乘法（5）

考虑到整理的方便，后面每一个章节都放在一个文件中，然后想到哪写到哪线性模型和最小二乘法Input vector: XT=(X1,X2,…,Xp)XT=(X1,X2,…,Xp)X^T=(X_1,X_2,\dots,X_p)Predict Output: YYYBy the linear regression model: f(X)=β0+∑j=1pXjβjf(X)=β0+∑j=...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。