文章目录
概念1:线性回归
1. 场景
坐标系中若干点,要找出一条直线 y = m x + b y=mx+b y=mx+b,使这些点到该直线上同一横坐标的点的距离平方和最小。需要求出斜率 m m m和截距 b b b。
注意:这里不是最小化这些点到该直线的距离的平方和,而是到直线的竖直距离(在主成分分析法中,求取新的主成分时采用的是最大化方差,采用了点到直线投影的可视化方式,与这里有些相似,注意不要混淆)。如下图:
2. 求直线的斜率和截距
主要通过最小化下图所示公式来求解,下面的方法就是有名的最小二乘回归:
S
E
l
i
n
e
=
∑
i
=
1
n
(
y
i
−
(
m
x
i
+
b
)
)
2
=
∑
i
=
1
n
y
i
2
−
2
∑
i
=
1
n
y
i
∗
(
m
x
i
+
b
)
+
∑
i
=
1
n
(
m
2
x
i
2
+
2
m
b
x
i
+
b
2
)
=
∑
i
=
1
n
y
i
2
−
2
m
∑
i
=
1
n
x
i
y
i
−
2
b
∑
i
=
1
n
y
i
+
m
2
∑
i
=
1
n
x
i
2
+
2
m
b
∑
i
=
1
n
x
i
+
n
b
2
=
n
y
2
‾
−
2
m
n
x
y
‾
−
2
b
n
y
‾
+
m
2
n
x
2
‾
+
2
m
b
n
x
‾
+
n
b
2
\begin {aligned} SE_{line}&=\sum_{i=1}^n{(y_i-(mx_i+b))^2} \\ &=\sum_{i=1}^n{y_i}^2-2{\sum_{i=1}^n{y_i*(mx_i+b)}}\\ &+\sum_{i=1}^n{(m^2x_i^2+2mbx_i+b^2)}\\ &=\sum_{i=1}^n{y_i}^2-2m\sum_{i=1}^n{x_iy_i}\\ &-2b\sum_{i=1}^n{y_i}+m^2\sum_{i=1}^n{x_i^2}\\ &+2mb\sum_{i=1}^n{x_i}+nb^2\\ &=n\overline{y^2}-2mn\overline{xy}-2bn\overline{y}\\ &+m^2n\overline{x^2}+2mbn\overline{x}+nb^2 \end{aligned}
SEline=i=1∑n(yi−(mxi+b))2=i=1∑nyi2−2i=1∑nyi∗(mxi+b)+i=1∑n(m2xi2+2mbxi+b2)=i=1∑nyi2−2mi=1∑nxiyi−2bi=1∑nyi+m2i=1∑nxi2+2mbi=1∑nxi+nb2=ny2−2mnxy−2bny+m2nx2+2mbnx+nb2
上式可以表述为一个三维曲面,求使得
S
E
l
i
n
e
SE_{line}
SEline最小化的m、b值,只需要求偏导均为0的点即可。三维曲面如图:
{
∂
S
E
l
i
n
e
∂
m
=
−
2
n
x
y
‾
+
2
m
n
x
2
‾
+
2
b
n
x
‾
=
0
∂
S
E
l
i
n
e
∂
b
=
−
2
n
y
‾
+
2
m
n
x
‾
+
2
n
b
=
0
\begin{cases} \frac{\partial_{SE_{line}}}{\partial_m}=-2n\overline{xy}+2mn\overline{x^2}+2bn\overline{x}=0\\ \frac{\partial_{SE_{line}}}{\partial_b}=-2n\overline{y}+2mn\overline{x}+2nb=0 \end{cases}
{∂m∂SEline=−2nxy+2mnx2+2bnx=0∂b∂SEline=−2ny+2mnx+2nb=0
化简可得:
{
x
2
‾
∗
m
+
x
‾
∗
b
=
x
y
‾
x
‾
∗
m
+
b
=
y
‾
\begin{cases} \overline{x^2}*m+\overline{x}*b=\overline{xy}\\ \overline{x}*m+b=\overline{y} \end{cases}
{x2∗m+x∗b=xyx∗m+b=y
设系数行列式为
M
=
∣
x
2
‾
x
‾
x
‾
1
∣
M= \begin{vmatrix} \overline{x^2} & \overline{x}\\ \overline{x} & 1 \end{vmatrix}
M=∣∣∣∣x2xx1∣∣∣∣则
{
m
=
∣
x
y
‾
x
‾
y
‾
1
∣
M
b
=
∣
x
2
‾
x
y
‾
x
‾
y
‾
∣
M
(
∗
)
\begin{cases}m=\frac{ \begin{vmatrix}\overline{xy} & \overline{x}\\ \overline{y} & 1\end{vmatrix}}{M}\\ b=\frac{ \begin{vmatrix}\overline{x^2} & \overline{xy}\\ \overline{x} & \overline{y}\end{vmatrix}}{M}(*) \end{cases}
⎩⎪⎪⎪⎨⎪⎪⎪⎧m=M∣∣∣xyyx1∣∣∣b=M∣∣∣∣x2xxyy∣∣∣∣(∗)
注意:这里求出斜率m后直接代入原方程组中第二个等式即可得出 b = y ‾ − m ∗ x ‾ b=\overline{y}-m*\overline{x} b=y−m∗x。当然,(*)形式的结果与该结果都是一样的。
3. 拟合优度检验
拟合优度检验是为了检验回归直线对所有样本数据的拟合程度的,常用的有两个指标:决定系数R2(有的资料称为判定系数)以及样本相关系数。
(1)三类误差
首先,在理解上述指标之前,先要了解三类误差的含义及其计算公式,分别是SST(总的误差平方和),SSR(回归误差平方和),SSE(残差平方和)。计算公式如下:
S
S
T
=
∑
(
y
i
−
y
‾
)
2
(
y 的总波动
)
S
S
R
=
∑
(
y
i
^
−
y
‾
)
2
S
S
E
=
∑
(
y
i
−
y
i
^
)
2
SST=\sum(y_i-\overline{y})^2\ \ \ (\text{y 的总波动})\\ SSR=\sum(\hat{y_i}-\overline{y})^2 \\ SSE=\sum(y_i-\hat{y_i})^2
SST=∑(yi−y)2 (y 的总波动)SSR=∑(yi^−y)2SSE=∑(yi−yi^)2三类误差关系如下:
S
S
T
=
S
S
R
+
S
S
E
SST=SSR+SSE
SST=SSR+SSE
从含义上解释: S S R SSR SSR表示样本数据中能被回归模型解释的成分,而 S S E SSE SSE表示样本数据中无法被回归模型解释的部分。
(2)判定系数R2
很显然,
y
的
波
动
被
回
归
模
型
描
述
的
部
分
y
的
总
波
动
\frac{y的波动被回归模型描述的部分}{y的总波动}
y的总波动y的波动被回归模型描述的部分公式即可反映该模型的拟合优度。公式如下:
r
2
=
S
S
R
S
S
T
=
1
−
S
S
E
S
S
T
r^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}
r2=SSTSSR=1−SSTSSE即
S
S
E
SSE
SSE越小,则
r
2
r^2
r2越大,拟合越佳。
(3)样本相关系数
ρ
=
(
m
的
符
号
)
r
2
\rho=(m的符号)\sqrt{r^2}
ρ=(m的符号)r2m为回归直线的斜率。
具体请参考《商务与经济统计》第13版
注意: r 2 r^2 r2的取值范围为 [ 0 , 1 ] [0,1] [0,1],而 ρ \rho ρ的取值范围是 [ − 1 , 1 ] [-1,1] [−1,1]。
4. 显著性检验
(1)除了进行拟合优度检验之外,还需要判断回归系数是否显著性地 ≠ 0 \neq0 ̸=0。因为当回归系数不等于0时,说明解释变量和被解释变量之间具有显著的线性关系(可能还有其他关系)。
关于回归分析的容易陷入误区
:
回归分析只能表示变量之间有无相关性,并不一定具有因果关系。是否具有因果关系,还需要分析统计人员根据具体场景进行确定。
(2)检验所需的统计量及其服从的分布
t
=
b
−
β
s
t=\frac{b-\beta}{s}
t=sb−β其中b是根据样本求出的回归方程系数(属于样本统计量),
β
\beta
β是
y
=
β
0
+
β
1
x
+
ϵ
y=\beta_0+\beta_1x+\epsilon
y=β0+β1x+ϵ中总体系数。
显著性假设就是根据样本所得的
b
,
s
b,s
b,s来检验
β
≠
0
\beta\neq0
β̸=0是否显著。
(具体分析过程请参考《商务与经济统计第13版》)
注意
:
1.在求统计量中 s s s的过程中,需要用的协方差和方差的概念,具体公式推导如下(这一点在《商务与经济统计》中没有说明): C O V ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − 2 E ( X ) E ( Y ) + E ( X ) E ( Y ) = E ( X Y ) − E ( X ) E ( Y ) \begin{aligned}COV(X,Y)&=E[(X-E(X))(Y-E(Y))] \\ &=E[XY-XE(Y)-YE(X)+E(X)E(Y)]\\ &=E(XY)-2E(X)E(Y)+E(X)E(Y) \\ &=E(XY)-E(X)E(Y)\end{aligned} COV(X,Y)=E[(X−E(X))(Y−E(Y))]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−2E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)
C O V ( X , X ) = E ( X 2 ) − ( E ( X ) ) 2 COV(X,X)=E(X^2)-(E(X))^2 COV(X,X)=E(X2)−(E(X))2上述公式与回归直线的斜率计算公式形式相近,能与证明回归系数分布时联系上(很重要)。
2.在得出显著性检验时所需要的t-分布的过程中,关于误差项 ϵ \epsilon ϵ的多项假设必不可少。(具体参见《商务与经济统计》第13版)
5. 残差分析
(1)证实模型假定
回归分析中对残差的基本假设是服从正态分布,如果这一点不满足,回归模型的立足点就出现问题。有如下两个图形化检验的方法:
以上两种方法,具体参见《商务与经济统计》第13版14.8节
注意
:
1.在参考视频中许多概念与本笔记概念有差别,个人觉得《商务经济与统计》一书中总结得很系统便采用其中的说法。之前在3.拟合优度检验中介绍了三类误差,视频:组内平方和和组间平方和分析的角度与该书有些许不同,但最终也得出了“总的波动=组内波动+组间波动”的关系形式,需要从波动的描述角度来考虑,其实二者结果是一样的。
2.方差分析与残差分析概念并不等同,目的也不相同,千万不要混淆。方差分析又称为ANOVA,方差有三个来源,分别是回归、残差(误差)以及总和,对应于SSR、SSE、SST;而残差是 y i − y i ^ y_i-\hat{y_i} yi−yi^。前者的目的是弄清回归模型对于因变量的描述程度,即衡量模型的拟合程度;而后者的目的是为了检验模型关于误差项 ϵ \epsilon ϵ的正态性假设是否合理。
(2)检测异常值或有影响的观测值
异常值和有影响的观测值(如高杠杆率点)往往能对回归模型产生决定性的影响,在构建回归模型之前检测出这些点将会使你更好的构建模型。
总的来说,回归分析是一个比较系统全面的领域,以上还只是总结了简单回归分析,余下的还有多元回归分析、逻辑回归等等一系列模型。学习时要注意理清如下几点:
1.回归分析包含哪些步骤
2.每个步骤的目的是什么
3.每个步骤包含哪些方法,具体怎么做
4.学会应用之后再深入地理解回归分析每一步骤的原理
概念2: χ 2 \chi^2 χ2-分布
1. 概念
N个相互独立的、服从标准正态分布的随机变量的平方和服从自由度为N的 χ 2 \chi^2 χ2-分布。
假 设 X 1 , X 2 … X n 是 n 个 相 互 独 立 的 随 机 变 量 且 X i ∼ N ( 0 , 1 ) , 则 ∑ i = 1 n X i 2 ∼ χ n 2 假设X_1,X_2\ldots{X_n}是n个相互独立的随机变量且 X_i\sim{N(0,1)},则\sum_{i=1}^n{X_i^2}\sim\chi_n^2 假设X1,X2…Xn是n个相互独立的随机变量且Xi∼N(0,1),则∑i=1nXi2∼χn2。
2. 分布曲线与自由度的关系
3. 两种 χ 2 \chi^2 χ2检验
(1)皮尔逊
χ
2
\chi^2
χ2检验
上图中的案例请见参考视频,要注意的是此案例中
χ
2
\chi^2
χ2统计量的构造是:
χ 2 = ∑ ( y i − y j ) 2 n − 1 \chi^2=\frac{\sum{(y_{i}-y_{j})^2}}{n-1} χ2=n−1∑(yi−yj)2,其中 y i y_i yi是观测值, y j y_j yj是原始值。
注意
这里自由度为 ( n − 1 = 5 ) (n-1=5) (n−1=5)。
(2)列联表(contingency table)
χ
2
\chi^2
χ2检验
通过列联表来检验药物的效果:
– | 药物1 | 药物2 | 对照组 | 总人数 |
---|---|---|---|---|
sick(人数) | 20(120*21%=25.3) | 30(140*21%=29.4) | 30(120*21%=25.3) | 80(80/380=21%) |
not sick(人数) | 100(120-25.3=94.7) | 110(140-29.4=110.6) | 90(120-25.3=94.7) | 300(300/380=79%) |
总人数 | 120 | 140 | 120 | 380 |
- 假设:
H 0 : H_0: H0:药品有效果 H 1 : H_1: H1:药品没有效果 -
χ
2
\chi^2
χ2统计量
1.上面两个例子中构造 χ 2 \chi^2 χ2统计量并不像先前的例子直接,需要熟练掌握。
2.此处的自由度是(行数-1)(列数-1)
。
概念3:方差分析
1. 计算总的平方和SST
2. 计算组内和组间平方和
以上两步主要是为了理清组内、组间波动同总的波动之间的关系,可参考视频(组内平方和和组间平方和)以及视频:计算总的平方和。同时,我们理解时也可以结合先前步骤进行理解。
3. F统计量假设检验
(1)该步骤主要是利用此前求出的总的平方和、组内平方和以及组间平方和来构造F统计量进行假设检验。该统计量为:
F
=
组
间
平
方
和
/
对
应
的
自
由
度
组
内
平
方
和
/
对
应
的
自
由
度
F=\frac{{组间平方和}/{对应的自由度}}{{组内平方和}/{对应的自由度}}
F=组内平方和/对应的自由度组间平方和/对应的自由度F分布实际是两个
χ
2
\chi^2
χ2分布之比。
(2)应用场景:比如现有三组数据,要检验这三组数据对应的总体均值是否差异显著(可参考视频)。
概念4:演绎推理与归纳推理
1. 演绎推理
从事实出发使用逻辑步骤、运算或推理,得出其他事实的过程。比如,已知方程求得方程解的过程,一般的正向推导式证明等。