回归分析简单线性回归的参数评价与多元线性回归起步

最新推荐文章于 2024-07-18 21:11:52 发布

thisis_redbrick

最新推荐文章于 2024-07-18 21:11:52 发布

阅读量111

点赞数

文章标签：学习大数据

本文链接：https://blog.csdn.net/thisis_redbrick/article/details/133338852

版权

简单线性回归的参数评价

fitted value 的区间估计

区间估计 Confidence Interval

考虑估计出来的参数\hat alpha, \hat beta，
$\frac{\hat \alpha+\hat \beta x_{n+1}-\alpha+ \beta x_{n+1}}{\sigma\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\sim N(0,1)$
考虑到分母中的sigma是未知的参数，我们用s/\sigma 它的无偏估计量s替换。左右同除以s/sigma，有
$\frac{\hat \alpha+\hat \beta x_{n+1}-\alpha+ \beta x_{n+1}}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\sim t_{n-2}$
这是因为（s/\sigma）^2 服从自由度为n-2的卡方分布。

由此给出区间估计
$P(\alpha+\beta x_{n+1}\in\bigg[\hat \alpha+\hat \beta x_{n+1} \pm t_{n-2}(\alpha/2)s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}} \bigg])=1-\alpha \tag 1$

好的，那么，如果我们有k个目标要估计呢？
$P(\alpha+\beta x_{n+i}\in\bigg[\hat \alpha+\hat \beta x_{n+1}\pm\triangle \bigg],i=1,...,k)\ge 1-\alpha$
考虑写成事件交集的形式
$P(\bigcap_{i=1}^k \alpha+\beta x_{n+i}\in\bigg[\hat \alpha+\hat \beta x_{n+1}\pm\triangle \bigg])\ge 1-\alpha$
再写成差的绝对值的形式
$P(\bigcap_{i=1}^k |\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\le\triangle )\ge 1-\alpha$
再写成1-补事件发生的概率的形式，对概率的并，可以放缩到子事件概率的求和
$1-P(\bigcup_{i=1}^k |\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\ge\triangle )\ge 1-\sum_{i=1}^kP(|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\ge\triangle )\ge 1-\alpha$

由此，我们希望使求和项不小于\alpha，即可得到想要的\delta.

不妨对每一项概率都提出要求：
$P(|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|\ge\triangle )=\frac{\alpha}{k}$
考虑下式
$P\bigg(\frac{|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\ge\frac{\triangle}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}} \bigg)=\frac{\alpha}{k}$
不等式左边的随机变量服从自由度为n-2的t分布。

考虑
$\frac{\triangle}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}=t_{n-2}(\frac{\alpha}{2k})\\ \therefore \triangle=st_{n-2}(\frac{\alpha}{2k})\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}\tag2$
与(1)对比可以知道，同时估计多个区间的话，区间的长度要大一些，这样才更有把握。
$t_{n-2}(\frac{\alpha}{2k})>t_{n-2}(\frac{\alpha}{2})$

以上，是k为有限数的时候才能用，无限数的话，分位数就取到无穷大了。所以可以换一种研究方法，研究t分布的随机变量中最大的那一个。
$P\bigg(\max_i\bigg|\frac{|\alpha+\beta x_{n+i}-\hat \alpha+\hat \beta x_{n+1}|}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\bigg|\le\frac{\triangle}{s\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}} \bigg)=1-\alpha$

假设检验 Hypothesis Test

先找点估计，再确定拒绝域
$H_0:\beta=\beta_0,H_1:\beta \ne \beta_0\\ \hat \beta\rightarrow\beta\stackrel{H_0}{\longrightarrow}\beta_0\\ If\; |\hat \beta -\beta_0|>A,Reject\; H_0$
显著水平：
$\alpha=P(Reject\;H_0|H_0)=P(|\hat \beta -\beta_0|>A|H_0)$
怎样找A呢？
$\frac{\hat \beta-\beta}{\sigma/\sqrt{S_{xx}}}\sim N(0,1)$
上式除以s/\sigma

$\frac{\hat \beta-\beta}{s/\sqrt{S_{xx}}}\sim t_{n-2}$

这是因为
$s\sim \chi^2(n-2),\hat \beta\perp\!\!\!\perp s$
所以，我们可以进一步确定A
$P(\frac{|\hat \beta -\beta_0|}{s/\sqrt{S_{xx}}}>\frac{A}{s/\sqrt{S_{xx}}}|H_0)=\alpha\\ \therefore A=t_{n-2}(\alpha/2)\frac{s}{\sqrt{S_{xx}}}$
这就是对\beta=0做的假设检验的拒绝域。

诸SS的分布

$SST=\sum(y_i-\bar y)^2=S_{YY},df_{T}=n-1\\$

$SSR=\sum(\hat y_i-\bar y)^2\\ \bar y=\bar{ \hat{y}},SSR=\hat \beta S_{xx},df_{R}=1$

$SSE=\sum(\hat y_i-y_i)^2 \sim \sigma^2 \chi^2(n-2),df_{E}=n-2$

有
$df_{T}=df_{E}+df_{R}\\ r^2\stackrel{\triangle}{=}\frac{SSR}{SST}\\ \frac{SSE}{n-2}=s^2\perp\!\!\!\perp \hat \beta=\frac{SSR}{S_{xx}}$

现在，用SS来检验H0。Under H0：\beta=0
$y_i=\alpha+\beta x_i+\epsilon_i=\alpha+\epsilon_i\\ \bar y=\alpha+\bar \epsilon, y_i-\bar y=\epsilon_i-\bar \epsilon\\ \because \epsilon_i\stackrel{i.i.d.}{\sim}N(0,\sigma^2)\\ \therefore \bar \epsilon\stackrel{i.i.d.}{\sim}N(0,\frac{\sigma^2}{n})\\ \frac{1}{n-1}\sum(\epsilon_i-\bar \epsilon)^2\sim \frac{\sigma^2\chi^2(n-1)}{n-1}$
最后两个分布是相互独立的，这一结论可以通过构造特殊的正交矩阵来证明。
$SST=\sum(y_i-\bar y)^2=\sum(\epsilon_i-\bar \epsilon)^2=\sigma^2 \chi^2(n-1)$
还可以将\bar \epsilon写成矩阵乘积的形式
$(\epsilon-\bar\epsilon)=(I_n-\frac{1}{n}\mathbf1\mathbf1^T)\epsilon\\ where\; \mathbf1=(1,...,1)^T$
所以，SST也可以写成如下的形式：
$SST=\epsilon^T(I_n-\frac{1}{n}\mathbf1\mathbf1^T)^T(I_n-\frac{1}{n}\mathbf1\mathbf1^T)\epsilon\\ =\epsilon^T(I_n-\frac{1}{n}\mathbf1\mathbf1^T)\epsilon$
若二次型中间的矩阵对称、幂等，则此二次型即为卡方分布，其自由度为矩阵的迹。

显然，对称幂等已经有了，
$tr(AB)=tr(BA)\\ tr(\mathbf1\mathbf1^T)=tr(\mathbf1^T\mathbf1)=n\\ tr(I_n-\frac{1}{n}\mathbf1\mathbf1^T)=n-1$
所以
$SST=\sigma^2 \chi^2(n-1)$

接下来，再考察SSR
$SSR=\hat \beta^2 S_{xx}=\bigg(\frac{S_{xy}}{S_{xx}}\bigg)^2S_{xx}=\frac{S_{xy}^2}{S_{xx}}\sim\sigma^2 \chi^2(1)$
证明是容易的
$\bigg(\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sqrt{S_{xx}}}\bigg)^2=\bigg(\frac{\sum(x_i-\bar x)(\epsilon_i-\bar\epsilon)}{\sqrt{S_{xx}}}\bigg)^2\\ =\bigg(\frac{\sum(x_i-\bar x)\epsilon_i}{\sqrt{S_{xx}}}\bigg)^2$
括号内的部分服从期望为0的正态分布，只需要考察其方差即可。
$Var\bigg(\frac{\sum(x_i-\bar x)\epsilon_i}{\sqrt{S_{xx}}}\bigg)=\frac{1}{S_{xx}}\sum(x_i-\bar x)^2 Var(\epsilon_i)=\frac{S_{xx}}{S_{xx}}\sigma^2=\sigma^2$
由此，
$SSR=\sigma^2 \chi^2(1)$
因为SSR与SSE是独立的，
$SST = SSR + SSE$
所以它们的分布的自由度也有类似的和数关系
$n - 1 = 1 + n - 2$
现在，考虑拒绝域
$\alpha=P(拒绝H_0|H_0)=P(SSR>A|H_0)$
尽管我们已经知道SSR的分布，但是分布的参数\sigma^{2是未知的，所以不能直接写出分位数。为了消除未知参数的影响，我们对不等式左右两边同除以s}2
$\alpha=P\bigg(\frac{SSR}{s^2}>\frac{A}{s^2}\bigg|H_0\bigg)$
SSR=MSR 均方残差

s^2=MSE 均方误差

定义F=MSR/MSE

就有
$F=\frac{\sigma^2 \chi^2(1)}{\sigma^2 \chi^2(n-2)/(n-2)}$
由于分子分母是独立的，F服从参数为1，n-2的F分布。

所以，
$A=F_{1,n-2}(\alpha)s^2$

多元线性回归

$Y=X\beta+\epsilon$

X被称为Data Matrix或Design Matrix。beta是参数向量，可以从最小二乘，BLUE，MLE三个层面加以考察。
$Y\in \mathbb{R}^{n\times 1}\\ \epsilon \in \mathbb{R}^{n\times 1}\\ X\in \mathbb{R}^{n\times (k+1)}\\ \beta\in \mathbb{R}^{(k+1)\times 1}$
再假设
$Cov(Y|X)=Cov(\epsilon )=\sigma^2 I_n$
即，各个观测之间是不相关的。

$\hat Y=X\hat \beta$
被称为Regression Plane （回归平面）。

对于最小二乘的方法，求导，解出导数为0的方程，得到
$\hat \beta=(X^TX)^{-1}X^TY\\ E(\hat \beta)=E((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^TX\beta=\beta\\$
所以，此\hat \beta是无偏估计量。
$Cov(\hat \beta)=Cov((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^T\sigma^2 X I_n(X^TX)^{-1}\\ =\sigma^2(X^TX)^{-1}$
如果代入k=1,容易看出\hat \alpha, \hat \beta的方差。

此处，除了解释变量X_i以外，我们还会补充一个截距项。
$x_0=\mathbb1_n,\hat Y\in span\{\mathbb1_n,x_1,...,x_k\}\\ \hat Y=HY=X(X^TX)^{-1}Y$
将H称为Hat Matrix或Projection Matrix。它是由X的特征向量组成的矩阵。

投影阵的性质：

对称
幂等
与单位阵的差也是幂等
迹为目标空间的维数

$tr(H)=tr(X(X^TX)^{-1}X^T)\\ =tr(X^TX(X^TX)^{-1})\\ =tr(I_{K+1})=k+1$

投影X，等于没有改变。

$(I - H) X = 0$

从5还可以有一个结论：当上式取第一列时，有
$H\mathbb1_n=1_n$
这个式子还是有点重要的。

BLUE（可以说明就是LSE）

对于LSE估计
$b=(X^TX)^{-1}X^TY$
考虑任意一个其它的线性无偏估计：
$\hat \beta=((X^TX)^{-1}X^T+A)Y\\ E[\hat \beta]=((X^TX)^{-1}X^T+A)X\beta=\beta+AX\beta$
由此，
$A X = 0$

考察协方差矩阵
$Cov(\hat \beta)=[(X^TX)^{-1}X^T+A]\sigma^2I_n [X (X^TX)^{-1}+A^T]\\ =\sigma^2((X^TX)^{-1}+AA^T）$
因为AA^T是非负定矩阵，所以
$tr(Cov(\hat \beta))\ge \sigma^2((X^TX)^{-1})=tr(Cov(b))$
等号成立当且仅当A=0。

所以，LSE=BLUE。

thisis_redbrick

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
回归分析简单线性回归的参数评价与多元线性回归起步

简单线性回归的参数评价fitted value 的区间估计区间估计 Confidence Interval考虑估计出来的参数\hat alpha, \hat beta，α^+β^xn+1−α+βxn+1σ1n+(xn+1−xˉ)2Sxx∼N(0,1)\frac{\hat \alpha+\hat \beta x_{n+1}-\alpha+ \beta x_{n+1}}{\sigma\sqrt{\frac{1}{n}+\frac{(x_{n+1}-\bar x)^2}{S_{xx}}}}\sim N(
复制链接

扫一扫