一、线性回归
1、线性回归原理
数据点基本落在一条直线附近。这告诉我们,变量X与Y的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。但是由于并非所有的数据点完全落在一条直线上,因此X与Y的关系并没有确切到可以唯一地由一个X值确定一个Y值的程度。其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y的测试结果。如果我们要研究X与Y的关系,可以作线性拟合
y
^
=
a
+
b
x
(
2
−
1
−
1
)
\hat{y}=a+b x (2-1-1)
y^=a+bx(2−1−1)
我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。
2、最小二乘法
如果把用回归方程
y
^
=
a
+
b
x
\hat{y}=a+b x
y^=a+bx 计算得到的值称为回归值,那么实际测量值
y
i
y_{i}
yi与回归值
y
^
i
\hat{y}_{i}
y^i之间存在着偏差,我们把这种偏差称为残差,记为
e
i
2
e_{i}^{2}
ei2。这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。残差平方和定义为:
Q
≡
Q
(
a
,
b
)
=
∑
i
=
1
n
e
i
2
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
=
∑
i
=
1
n
(
y
i
−
a
−
b
x
i
)
2
Q \equiv Q(a, b)=\sum_{i=1}^{n} e_{i}^{2} =\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2} =\sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2}
Q≡Q(a,b)=∑i=1nei2=∑i=1n(yi−y^i)2=∑i=1n(yi−a−bxi)2
(2-1-2)
所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线 是在所有直线中与测量值残差平方和Q最小的一条。由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小值总是存在的。
推导:
S
E
l
i
n
e
=
(
y
1
−
(
m
x
1
+
b
)
)
2
+
(
y
2
−
(
m
x
2
+
b
)
)
2
+
…
+
(
y
n
−
(
m
x
n
+
b
)
)
2
S E_{l i n e}=\left(y_{1}-\left(m x_{1}+b\right)\right)^{2}+\left(y_{2}-\left(m x_{2}+b\right)\right)^{2}+\ldots+\left(y_{n}-\left(m x_{n}+b\right)\right)^{2}
SEline=(y1−(mx1+b))2+(y2−(mx2+b))2+…+(yn−(mxn+b))2
=
y
1
2
−
2
y
1
(
m
x
1
+
b
)
+
(
m
x
1
+
b
)
2
+
y
2
2
−
2
y
2
(
m
x
2
+
b
)
+
(
m
x
2
+
b
)
2
+
…
+
y
n
2
−
2
y
n
(
m
x
n
+
b
)
+
(
m
x
n
+
b
)
2
=y_{1}^{2}-2 y_{1}\left(m x_{1}+b\right)+\left(m x_{1}+b\right)^{2}+y_{2}^{2}-2 y_{2}\left(m x_{2}+b\right)+\left(m x_{2}+b\right)^{2}+\ldots+y_{n}^{2}-2 y_{n}\left(m x_{n}+b\right)+\left(m x_{n}+b\right)^{2}
=y12−2y1(mx1+b)+(mx1+b)2+y22−2y2(mx2+b)+(mx2+b)2+…+yn2−2yn(mxn+b)+(mxn+b)2
=
y
1
2
−
2
y
1
m
x
1
−
2
y
1
b
+
m
2
x
1
2
+
2
m
x
1
b
+
b
2
+
…
.
=y_{1}^{2}-2 y_{1} m x_{1}-2 y_{1} b+m^{2} x_{1}^{2}+2 m x_{1} b+b^{2}+\ldots .
=y12−2y1mx1−2y1b+m2x12+2mx1b+b2+….
=
(
y
1
2
+
y
2
2
+
…
+
y
n
2
)
−
2
m
(
x
1
y
1
+
x
2
y
2
+
…
+
x
n
y
n
)
−
2
b
(
y
1
+
y
2
+
…
+
y
n
)
+
m
2
(
x
1
2
+
x
2
2
+
…
+
x
n
2
)
+
2
m
b
(
x
1
+
x
2
+
…
+
x
n
)
+
n
b
2
=\left(y_{1}^{2}+y_{2}^{2}+\ldots+y_{n}^{2}\right)-2 m\left(x_{1} y_{1}+x_{2} y_{2}+\ldots+x_{n} y_{n}\right)-2 b\left(y_{1}+y_{2}+\ldots+y_{n}\right)+m^{2}\left(x_{1}^{2}+x_{2}^{2}+\ldots+x_{n}^{2}\right)+2 m b\left(x_{1}+x_{2}+\ldots+x_{n}\right)+n b^{2}
=(y12+y22+…+yn2)−2m(x1y1+x2y2+…+xnyn)−2b(y1+y2+…+yn)+m2(x12+x22+…+xn2)+2mb(x1+x2+…+xn)+nb2
=
n
y
2
‾
−
2
m
n
x
y
‾
−
2
b
n
y
‾
+
m
2
n
x
2
‾
+
2
m
b
n
x
‾
+
n
b
2
=n \overline{y^{2}}-2 m n \overline{x y}-2 b n \overline{y}+m^{2} n \overline{x^{2}}+2 m b n \overline{x}+n b^{2}
=ny2−2mnxy−2bny+m2nx2+2mbnx+nb2
如果知道所有点的分布,即在x,y已知的情况下,不同的m和b,有不同的SEline,是一个三纬曲面,类似碗状,求最小SEline时m、b知,可通过对m和b求偏导获得。偏导就是对于某一个自变量进行求导。
∂
S
E
∂
m
=
0
\frac{\partial S E}{\partial \mathrm{m}}=0
∂m∂SE=0 ,得
−
x
y
‾
+
x
2
‾
m
+
b
x
‾
=
0
-\overline{\mathrm{xy}}+\overline{\mathrm{x}^{2}} \mathrm{m}+\mathrm{b} \overline{\mathrm{x}}=0
−xy+x2m+bx=0
∂
S
E
∂
b
=
0
\frac{\partial \mathrm{SE}}{\partial \mathrm{b}}=0
∂b∂SE=0,得
−
y
‾
+
x
‾
m
+
b
=
0
-\overline{\mathrm{y}}+\overline{\mathrm{x}} \mathrm{m}+\mathrm{b}=0
−y+xm+b=0
从第二的方程中可以知道x和y的均值位于该直线上,解方程得:
m
=
x
‾
y
‾
−
x
y
‾
x
‾
2
−
x
2
‾
=
x
y
‾
−
x
‾
y
‾
x
2
‾
−
x
‾
2
,
b
=
y
‾
−
m
x
‾
m=\frac{\overline{x} \overline{y}-\overline{x y}}{\overline{x}^{2}-\overline{x^{2}}}=\frac{\overline{x y}-\overline{x} \overline{y}}{\overline{x^{2}}-\overline{x}^{2}}, \quad b=\overline{y}-m \overline{x}
m=x2−x2xy−xy=x2−x2xy−xy,b=y−mx
二、协方差
度量各个维度偏离其均值的程度。协方差是为多维变量创立的,目的是为了描述两个变量的关系(正相关,负向关。相互独立)。需注意协方差只能两个维度算,多个维度的协方差形成协方差矩阵。
cov
(
X
,
Y
)
=
E
[
(
x
−
E
[
X
]
)
(
y
−
E
[
Y
]
)
]
\operatorname{cov}(X, Y)=E[(x-E[X])(y-E[Y])]
cov(X,Y)=E[(x−E[X])(y−E[Y])]
三、卡方分布
卡方分布
1.1 定义
设 X1,X2,…Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+…+Xn2所服从的分布为自由度为 n 的χ2分布.[1]
卡方分布的 期望 E ( X 2 ) = n E\left(X^{2}\right)=n E(X2)=n,方差 = D ( x 2 ) = 2 n =D(x^{2})=2 n =D(x2)=2n。
卡方分布:若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布N(0,1)(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为 分布(chi-squaredistribution)。其中参数n称为自由度(通俗讲,样本中独立或能自由变化的自变量的个数,称为自由度),正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个分布。记为 分布的均值为自由度 n,记为 E() = n;分布的方差为2倍的自由度(2n),记为 D() = 2n。