Chapter-6_回归分析
本文内容摘自:
https://seeing-theory.brown.edu/regression-analysis/cn.html
回归分析是一种建立两个变量之间线性模型的方法。
1. 最小二乘法
最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。
选择一个数据集
拖动图中的数据点,观察它们对回归直线的影响。
点击下方表格来了解每个参数在最小二乘法中的具体含义。
n 是样本大小,也就是数据集中数据点的个数。
x
ˉ
\bar{x}
xˉ 是 X 数据的均值,其数学定义如下:
x
ˉ
=
∑
i
=
1
n
x
i
n
\bar{x} = \sum_{i=1}^{n}\dfrac{x_{i}}{n}
xˉ=i=1∑nnxi
y
ˉ
\bar{y}
yˉ 是
y
y
y 数据的均值,其数学定义如下:
y
ˉ
=
∑
i
=
1
n
y
i
n
\bar{y} = \sum_{i=1}^{n}\dfrac{y_{i}}{n}
yˉ=i=1∑nnyi
B
0
^
\hat{B_{0}}
B0^ 是回归直线的截距,目前的估计值的方差是 11.39。其数学定义如下:
B
0
^
=
y
ˉ
−
B
1
^
x
ˉ
\hat{B_{0}} = \bar{y} - \hat{B_{1}}\bar{x}
B0^=yˉ−B1^xˉ
B
1
^
\hat{B_{1}}
B1^ 是回归直线的斜率,目前估计的方差是0.13。 其数学定义如下:
B
1
^
=
S
x
y
S
x
x
\hat{B_{1}} = \dfrac{S_{xy}}{S_{xx}}
B1^=SxxSxy
S
S
E
SSE
SSE 指的是残差平方和(sum of squared error,其数学定义如下:
S
S
E
=
∑
i
=
1
n
(
y
i
−
(
B
0
^
+
B
1
^
x
i
)
)
2
SSE = \sum_{i=1}^{n}(y_{i} - (\hat{B_{0}} + \hat{B_{1}}x_{i}))^{2}
SSE=i=1∑n(yi−(B0^+B1^xi))2
2. 相关性
相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是
r
=
s
x
y
s
x
x
s
y
y
r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}
r=sxxsyysxy
其中
s
x
y
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
s
x
x
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s
y
y
=
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
s_{xy} =\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y}) \\ s_{xx} =\sum^n_{i=1} (x_i-\bar{x})^2 \\ s_{yy} =\sum^n_{i=1} (y_i-\bar{y})^2
sxy=i=1∑n(xi−xˉ)(yi−yˉ)sxx=i=1∑n(xi−xˉ)2syy=i=1∑n(yi−yˉ)2
由上述定义我们可以看出
r
∈
[
−
1.1
]
r\in[-1.1]
r∈[−1.1]。
我们还可以把相关性
r
r
r 理解为最小二乘法确定的
x
,
y
x,y
x,y 变量方向之间的余弦值。你可以通过 Edgar Anderson 的著名的 鸢尾花(Iris flower)数据集例子来进一步探索这个概念。选择下方鸢尾花种类:
点击下面相关性矩阵来探索各个品种鸢尾花之间的相关性。
实验效果:
(再次)选择:
实验效果:
3. 方差分析
方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。
选择一个数据集来进行探索:
3.1 数据集1.
你可以移动数据点然后观察这些改变如何影响方差分析的结果。
点击下方方差分析表格的各列来进一步了解各参数的意义。
S
S
E
SSE
SSE (sum of squared residuals)指的是残差平方和。其数学定义如下:
S
S
E
=
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
SSE = \sum_{i=1}^{n} (y_{i} - \bar{y})^{2}
SSE=i=1∑n(yi−yˉ)2
d
f
df
df(degree of freedom)指的是自由度. 其数学定义如下:
d
f
=
n
−
1
df = n - 1
df=n−1
M
S
E
MSE
MSE(mean squared error)指的是均方差,其数学定义如下:
M
S
E
=
S
S
E
d
f
MSE = \dfrac{SSE}{df}
MSE=dfSSE
F
F
F 是一个检验统计量,其数学定义如下:
F
=
S
S
T
/
(
k
−
1
)
S
S
E
/
(
n
−
k
)
∼
f
k
−
1
,
n
−
k
F = \dfrac{SST/(k-1)}{SSE/(n-k)} \sim f_{k-1,n-k}
F=SSE/(n−k)SST/(k−1)∼fk−1,n−k
p p p 是由 F F F 统计量得出的 p 值。
3.2 数据集2
3.3 数据集3.
- 【看见统计】全文内容摘自:
https://seeing-theory.brown.edu/cn.html
- 【时间】2022.03.25