R语言--线性回归（2）回归模型推导

最新推荐文章于 2024-04-14 23:50:44 发布

蚂蚁冲锋号

最新推荐文章于 2024-04-14 23:50:44 发布

阅读量1.8k

点赞数 1

分类专栏： r语言与数据分析文章标签： r语言

本文链接：https://blog.csdn.net/m3048663/article/details/78765786

版权

r语言与数据分析专栏收录该内容

2 篇文章 1 订阅

订阅专栏

$Y\sim N(\mu,\delta^2)$
$a+CY \sim N(a+c\mu,c^2\delta^2)$

一、 $\beta_0,\beta_1$ 推导

对 $\beta_1$ 的推导
$\hat\beta_1 = \frac{\sum_{i=1}^n(x_i-\bar x)Y_i}{\sum_{i=1}^n(x_i-\bar x)^2} = \sum_{i=1}^n k_iY_i$

$E(\hat\beta_1) = \beta_1$

$Var(\hat\beta_1) = \frac{\delta^2}{\sum_{i=1}^n(x_i-\bar x)^2}$

其中通常标记 $S_{xx} = \sum_{i=1}^n(x_i-\bar x)^2$

$\hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{\sum_{i=1}^n(x_i-\bar x)^2})$

$\frac{\hat\beta_1 - \beta_1}{sd(\hat\beta_1)} \sim N(0,1)$

通常，我们是无法获得标准差的，不过我们可以通过MSE来获得beta_1的standard error，在（1）中有提过经常使用 $\hat\delta = \sqrt{MSE}$ ，即用MSE来作为标准差的估计量，而且MSE也是方差的无偏估计量。
$se(\hat\beta_1) = \sqrt {\frac{\delta^2}{\sum_{i=1}^n(x_i-\bar x)^2}}$
$se(\hat\beta_1) = \sqrt {\frac{MSE}{\sum_{i=1}^n(x_i-\bar x)^2}}$

$\frac{\hat\beta_1-\beta_1}{se(\hat\beta_1)}$ 的样本分布

此处需要补充卡方分布，t分布的概念：

卡方分布：若k个随机变量 $Z_1,...,Z_k$ 是相互独立，符合标准正态分布的随机变量，则随机变量Z的平方和 $X=\sum_{i=1}^k Z_i^2$ 被称为服从自由度为k的卡方分布。

t分布：t分布可以表示为 $\frac{Z}{\sqrt{\frac{w}{v}}}$ ，其中Z服从标准正态分布， $w \sim \chi_v^2$ 而且Z和w相互独立

$\frac{(n-2)se^2(\hat\beta_1)}{sd^2(\hat\beta_1)} = \frac{(n-2)MSE}{\delta^2} = \frac{SSE}{\delta^2} \sim \chi_{n-2}^2$

$\frac{\hat\beta_1-\beta_1}{se(\hat\beta_1)} = \frac{(\hat\beta_1-\beta_1)/sd(\hat\beta_1)}{se(\hat\beta_1)/sd(\hat\beta_1)} = \frac{Z}{\sqrt{\frac{\chi_{n-2}^2}{n-2}}}\sim t_{n-2}$

$\frac{\hat\beta_1-\beta_1}{se(\hat\beta_1)} \sim t_{n-2}$
随后的所有置信区间，假设检验，概率区间都是基于t分布。

1.zhixin qujian

Tables	p-value	Reject Region
Two-sided	$P(\|T\|\ge\|t^*\|)$	$\|t^*\|\gt t_{1-\alpha/2,n-2}$
right-tailed	$P(T\gt t^*)$	$t^*\gt t_{1-\alpha/2,n-2}$
left-tailed	$P(T\lt t^*)$	$t^*\lt t_{1-\alpha/2,n-2}$