统计学基础知识点刷题（task4）

最新推荐文章于 2020-05-21 20:40:31 发布

sm376624607

最新推荐文章于 2020-05-21 20:40:31 发布

阅读量1.5k

点赞数 2

本文链接：https://blog.csdn.net/sm376624607/article/details/88093103

版权

参考视频：可汗学院《统计学》
参考书籍：《深入浅出统计学》

文章目录

概念1：线性回归

1. 场景

坐标系中若干点，要找出一条直线 $y = m x + b$ ，使这些点到该直线上同一横坐标的点的距离平方和最小。需要求出斜率 $m$ 和截距 $b$ 。

注意：这里不是最小化这些点到该直线的距离的平方和，而是到直线的竖直距离（在主成分分析法中，求取新的主成分时采用的是最大化方差，采用了点到直线投影的可视化方式，与这里有些相似，注意不要混淆）。如下图：

2. 求直线的斜率和截距

主要通过最小化下图所示公式来求解，下面的方法就是有名的最小二乘回归：
在这里插入图片描述 $\begin {aligned} SE_{line}&=\sum_{i=1}^n{(y_i-(mx_i+b))^2} \\ &=\sum_{i=1}^n{y_i}^2-2{\sum_{i=1}^n{y_i*(mx_i+b)}}\\ &+\sum_{i=1}^n{(m^2x_i^2+2mbx_i+b^2)}\\ &=\sum_{i=1}^n{y_i}^2-2m\sum_{i=1}^n{x_iy_i}\\ &-2b\sum_{i=1}^n{y_i}+m^2\sum_{i=1}^n{x_i^2}\\ &+2mb\sum_{i=1}^n{x_i}+nb^2\\ &=n\overline{y^2}-2mn\overline{xy}-2bn\overline{y}\\ &+m^2n\overline{x^2}+2mbn\overline{x}+nb^2 \end{aligned}$
上式可以表述为一个三维曲面，求使得 $SE_{line}$ 最小化的m、b值，只需要求偏导均为0的点即可。三维曲面如图：
在这里插入图片描述 $\begin{cases} \frac{\partial_{SE_{line}}}{\partial_m}=-2n\overline{xy}+2mn\overline{x^2}+2bn\overline{x}=0\\ \frac{\partial_{SE_{line}}}{\partial_b}=-2n\overline{y}+2mn\overline{x}+2nb=0 \end{cases}$
化简可得： $\begin{cases} \overline{x^2}*m+\overline{x}*b=\overline{xy}\\ \overline{x}*m+b=\overline{y} \end{cases}$
设系数行列式为 $\begin{vmatrix} \overline{x^2} & \overline{x}\\ \overline{x} & 1 \end{vmatrix}$ 则 $\begin{cases}m=\frac{ \begin{vmatrix}\overline{xy} & \overline{x}\\ \overline{y} & 1\end{vmatrix}}{M}\\ b=\frac{ \begin{vmatrix}\overline{x^2} & \overline{xy}\\ \overline{x} & \overline{y}\end{vmatrix}}{M}(*) \end{cases}$

注意：这里求出斜率m后直接代入原方程组中第二个等式即可得出 $b=\overline{y}-m*\overline{x}$ 。当然，(*)形式的结果与该结果都是一样的。

3. 拟合优度检验

拟合优度检验是为了检验回归直线对所有样本数据的拟合程度的，常用的有两个指标：决定系数R2(有的资料称为判定系数)以及样本相关系数。
(1)三类误差
首先，在理解上述指标之前，先要了解三类误差的含义及其计算公式，分别是SST(总的误差平方和),SSR(回归误差平方和),SSE(残差平方和)。计算公式如下： $SST=\sum(y_i-\overline{y})^2\ \ \ (\text{y 的总波动})\\ SSR=\sum(\hat{y_i}-\overline{y})^2 \\ SSE=\sum(y_i-\hat{y_i})^2$ 三类误差关系如下： $S S T = S S R + S S E$

从含义上解释： $S S R$ 表示样本数据中能被回归模型解释的成分，而 $S S E$ 表示样本数据中无法被回归模型解释的部分。

(2)判定系数R2
很显然， $\frac{y的波动被回归模型描述的部分}{y的总波动}$ 公式即可反映该模型的拟合优度。公式如下： $r^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}$ 即 $S S E$ 越小，则 $r^2$ 越大，拟合越佳。
(3)样本相关系数
$\rho=(m的符号)\sqrt{r^2}$ m为回归直线的斜率。
具体请参考《商务与经济统计》第13版

注意： $r^2$ 的取值范围为 $[0, 1]$ ，而 $\rho$ 的取值范围是 $[- 1, 1]$ 。

4. 显著性检验

(1)除了进行拟合优度检验之外，还需要判断回归系数是否显著性地 $\neq0$ 。因为当回归系数不等于0时，说明解释变量和被解释变量之间具有显著的线性关系(可能还有其他关系)。

关于回归分析的容易陷入误区：
回归分析只能表示变量之间有无相关性，并不一定具有因果关系。是否具有因果关系，还需要分析统计人员根据具体场景进行确定。

(2)检验所需的统计量及其服从的分布
$t=\frac{b-\beta}{s}$ 其中b是根据样本求出的回归方程系数(属于样本统计量), $\beta$ 是 $y=\beta_0+\beta_1x+\epsilon$ 中总体系数。
显著性假设就是根据样本所得的 $b, s$ 来检验 $\beta\neq0$ 是否显著。

（具体分析过程请参考《商务与经济统计第13版》）

注意:
1.在求统计量中 $s$ 的过程中，需要用的协方差和方差的概念，具体公式推导如下（这一点在《商务与经济统计》中没有说明）： $\begin{aligned}COV(X,Y)&=E[(X-E(X))(Y-E(Y))] \\ &=E[XY-XE(Y)-YE(X)+E(X)E(Y)]\\ &=E(XY)-2E(X)E(Y)+E(X)E(Y) \\ &=E(XY)-E(X)E(Y)\end{aligned}$
$COV(X,X)=E(X^2)-(E(X))^2$ 上述公式与回归直线的斜率计算公式形式相近，能与证明回归系数分布时联系上(很重要)。
2.在得出显著性检验时所需要的t-分布的过程中，关于误差项 $\epsilon$ 的多项假设必不可少。(具体参见《商务与经济统计》第13版)

5. 残差分析

(1)证实模型假定
回归分析中对残差的基本假设是服从正态分布，如果这一点不满足，回归模型的立足点就出现问题。有如下两个图形化检验的方法：

残差图
正态概率图(需用到标准化残差)

以上两种方法，具体参见《商务与经济统计》第13版14.8节
注意：
1.在参考视频中许多概念与本笔记概念有差别，个人觉得《商务经济与统计》一书中总结得很系统便采用其中的说法。之前在3.拟合优度检验中介绍了三类误差，视频:组内平方和和组间平方和分析的角度与该书有些许不同，但最终也得出了“总的波动=组内波动+组间波动”的关系形式，需要从波动的描述角度来考虑，其实二者结果是一样的。
2.方差分析与残差分析概念并不等同，目的也不相同，千万不要混淆。方差分析又称为ANOVA，方差有三个来源，分别是回归、残差（误差）以及总和，对应于SSR、SSE、SST；而残差是 $y_i-\hat{y_i}$ 。前者的目的是弄清回归模型对于因变量的描述程度，即衡量模型的拟合程度；而后者的目的是为了检验模型关于误差项 $\epsilon$ 的正态性假设是否合理。

(2)检测异常值或有影响的观测值
异常值和有影响的观测值(如高杠杆率点)往往能对回归模型产生决定性的影响，在构建回归模型之前检测出这些点将会使你更好的构建模型。

总的来说，回归分析是一个比较系统全面的领域，以上还只是总结了简单回归分析，余下的还有多元回归分析、逻辑回归等等一系列模型。学习时要注意理清如下几点：
1.回归分析包含哪些步骤
2.每个步骤的目的是什么
3.每个步骤包含哪些方法，具体怎么做
4.学会应用之后再深入地理解回归分析每一步骤的原理

概念2： $\chi^2$ -分布

1. 概念

N个相互独立的、服从标准正态分布的随机变量的平方和服从自由度为N的 $\chi^2$ -分布。

$假设X_1,X_2\ldots{X_n}是n个相互独立的随机变量且 X_i\sim{N(0,1)}，则\sum_{i=1}^n{X_i^2}\sim\chi_n^2$ 。

2. 分布曲线与自由度的关系

在这里插入图片描述

3. 两种 $\chi^2$ 检验

(1)皮尔逊 $\chi^2$ 检验
在这里插入图片描述上图中的案例请见参考视频，要注意的是此案例中 $\chi^2$ 统计量的构造是：

$\chi^2=\frac{\sum{(y_{i}-y_{j})^2}}{n-1}$ ,其中 $y_i$ 是观测值， $y_j$ 是原始值。注意这里自由度为 $(n - 1 = 5)$ 。

(2)列联表(contingency table) $\chi^2$ 检验
通过列联表来检验药物的效果：

–	药物1	药物2	对照组	总人数
sick(人数)	20(120*21%=25.3)	30(140*21%=29.4)	30(120*21%=25.3)	80(80/380=21%)
not sick(人数)	100(120-25.3=94.7)	110(140-29.4=110.6)	90(120-25.3=94.7)	300(300/380=79%)
总人数	120	140	120	380

假设：
$H_0:$ 药品有效果 $H_1:$ 药品没有效果
$\chi^2$ 统计量

1.上面两个例子中构造 $\chi^2$ 统计量并不像先前的例子直接，需要熟练掌握。
2.此处的自由度是(行数-1)(列数-1)。

概念3：方差分析

1. 计算总的平方和SST

2. 计算组内和组间平方和

以上两步主要是为了理清组内、组间波动同总的波动之间的关系，可参考视频(组内平方和和组间平方和)以及视频：计算总的平方和。同时，我们理解时也可以结合先前步骤进行理解。

3. F统计量假设检验

(1)该步骤主要是利用此前求出的总的平方和、组内平方和以及组间平方和来构造F统计量进行假设检验。该统计量为： $F=\frac{{组间平方和}/{对应的自由度}}{{组内平方和}/{对应的自由度}}$ F分布实际是两个 $\chi^2$ 分布之比。
(2)应用场景：比如现有三组数据，要检验这三组数据对应的总体均值是否差异显著（可参考视频）。