y y y和 x x x之间是一种相关关系,即当自变量变化时,因变量大体按某种规律变化,两者之间的关系不能直观的看出来,需要用统计学的方法加以确定,回归分析就是研究随机现象中某种变量间关系的一种数理统计方法,相关关系存在着某种程度的不确定性。例如,身高与体重,分析化学制备标准工作曲线中,浓度与吸光度间的关系。
1、最小二乘法
求回归方程的方法,通常是用最小二乘法,其基本思想就是从并不完全成一条直线的各点中用数理统计的方法找出一条直线,使各数据点到该直线的距离的总和相对其他任何线来说最小,记各点到回归线的差分和为最小,简称最小二乘法。
针对一元线性方程,假设有实验点(
x
1
,
y
1
x_{1},y_{1}
x1,y1),(
x
2
,
y
2
x_{2},y_{2}
x2,y2),
…
\dots
…,(
x
n
,
y
n
x_{n},y_{n}
xn,yn),满足如下回归方程:
y
=
a
+
b
x
y=a+bx
y=a+bx
其中,
b
b
b为斜率,
a
a
a为截距。
则每个实验点相对于回归方程的误差为:
δ
i
=
y
i
−
(
a
+
b
x
i
)
,
i
=
1
,
2
,
…
,
n
\delta_{i}=y_{i}-(a+bx_{i}),i = 1,2,\dots,n
δi=yi−(a+bxi),i=1,2,…,n
求误差平方和最小值:
令
Q
Q
Q代表各实验点误差平方和,有
Q
=
∑
i
=
1
n
δ
2
=
∑
i
=
1
n
(
y
i
−
(
a
+
b
x
i
)
)
2
Q=\sum_{i=1}^{n}\delta^{2}=\sum_{i=1}^{n}(y_{i}-(a+bx_{i}))^{2}
Q=i=1∑nδ2=i=1∑n(yi−(a+bxi))2
使
Q
Q
Q值最小,只需将上式对
a
,
b
a,b
a,b 求偏微分,并令其为零,有
∂
Q
∂
a
=
−
2
∑
i
=
1
n
(
y
i
−
(
a
+
b
x
i
)
)
=
0
,
∂
Q
∂
b
=
−
2
∑
i
=
1
n
(
y
i
−
(
a
+
b
x
i
)
)
x
i
=
0
\frac{\partial Q}{\partial a}=-2\sum_{i=1}^{n}(y_{i}-(a+bx_{i}))=0 ,\\ \frac{\partial Q}{\partial b}=-2\sum_{i=1}^{n}(y_{i}-(a+bx_{i}))x_{i}=0
∂a∂Q=−2i=1∑n(yi−(a+bxi))=0,∂b∂Q=−2i=1∑n(yi−(a+bxi))xi=0
将上两式求解并简化即可求出
a
,
b
a,b
a,b,得
b
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
,
a
=
y
‾
−
b
x
‾
b=\frac{\sum_{i=1}^{n}(x_{i}- \overline x)(y_{i}- \overline y)}{\sum_{i=1}^{n}(x_{i}- \overline x)^{2}},a= \overline y-b \overline x
b=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y),a=y−bx
可见回归方程必经过点
(
x
‾
,
y
‾
)
( \overline x, \overline y)
(x,y),其中,
x
‾
\overline x
x 和
y
‾
\overline y
y 分别为和的平均值。
2、相关系数与决定系数
1)相关系数
著名统计学家卡尔·皮尔逊设计了统计指标—相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数;将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关系数是度量两个变量之间的相关程度,最终结果介于-1到1之间。其结果为两个变量之间的协方差与标准差的商。
相关系数计算公式:
r
=
c
o
v
(
X
,
Y
)
σ
X
σ
Y
=
∑
i
=
1
n
(
X
i
−
X
‾
)
(
Y
i
−
Y
‾
)
∑
i
=
1
n
(
X
i
−
X
‾
)
2
∑
i
=
1
n
(
Y
i
−
Y
‾
)
2
r=\frac{cov(X,Y)}{\sigma X\sigma Y}=\frac{\sum_{i=1}^{n}(X_{i}- \overline X)(Y_{i}- \overline Y)}{\sqrt{\sum_{i=1}^{n}(X_{i}- \overline X)^{2}}\sqrt{\sum_{i=1}^{n}(Y_{i}- \overline Y)^{2}}}
r=σXσYcov(X,Y)=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
其中,
协方差公式
c
o
v
(
X
,
Y
)
=
∑
i
=
1
n
(
X
i
−
X
‾
)
(
Y
i
−
Y
‾
)
n
cov(X,Y)=\frac{\sum_{i=1}^{n}(X_{i}- \overline X)(Y_{i}- \overline Y)}{n}
cov(X,Y)=n∑i=1n(Xi−X)(Yi−Y)
协方差的意义:如果结果为正值(当
X
i
X_{i}
Xi 大于(小于)
X
‾
\overline X
X 并且
Y
i
Y_{i}
Yi 大于(小于)
Y
‾
\overline Y
Y ),则说明
X
X
X 和
Y
Y
Y 是正相关,如果为负则说明负相关,如果为0则说明两者之间没有关联,相互独立。
标准差公式
σ
X
=
∑
i
=
1
n
(
X
i
−
X
‾
)
2
n
,
σ
Y
=
∑
i
=
1
n
(
Y
i
−
Y
‾
)
2
n
\sigma X= \sqrt{\frac {\sum_{i=1}^{n}(X_{i}- \overline X)^{2}}{n}},\\ \sigma Y= \sqrt{\frac {\sum_{i=1}^{n}(Y_{i}- \overline Y)^{2}}{n}}
σX=n∑i=1n(Xi−X)2,σY=n∑i=1n(Yi−Y)2
除以标准差的意义:即消除了
X
X
X 和
Y
Y
Y 自身变化的影响,只讨论两者之间关系。
上述公式中,
X
,
Y
X,Y
X,Y 为两个变量集合,
c
o
v
(
X
,
Y
)
cov(X,Y)
cov(X,Y) 为
X
X
X 、
Y
Y
Y 之间的协方差,
σ
X
\sigma X
σX 为
X
X
X 的标准差。
缺点:需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数
n
n
n 相关,这容易给人一种假象。因为,当
n
n
n 较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当
n
n
n 较大时,相关系数的绝对值容易偏小。特别是当
n
=
2
n=2
n=2 时,相关系数的绝对值总为1。因此在样本容量
n
n
n 较小时,仅凭相关系数较大就判定变量
X
X
X 与
Y
Y
Y 之间有密切的线性关系是不妥当的。
2)决定系数
度量拟合优度的统计量是决定系数(亦称可决系数、确定系数、判定系数、相关指数)
R
2
R^{2}
R2,最大值为1。拟合优度(Goodness of Fit)是指回归曲线对观测值的拟合程度。这里的拟合可以是线性的,也可以是非线性的,即使线性的也不一定要用最小二乘法来拟合。
规则:
R
2
R^{2}
R2 的值越接近1,说明回归曲线对观测值的拟合程度越好;反之,
R
2
R^{2}
R2 的值越小,说明回归曲线对观测值的拟合程度越差。总而言之,拟合优度是用于度量拟合曲线对于原始数据拟合效果的好坏,拟合优度
R
2
R^{2}
R2 越接近1说明拟合优度越好,一般来说,拟合优度到达0.8以上就可以说拟合效果不错了。
令
y
y
y 为待拟合(真实)数据,
y
‾
\overline y
y 为待拟合数据平均值,
y
^
\hat y
y^ 为拟合结果数据,如下给出决定系数的定义:
- 总平方和(total sum of squares)
S S T = ∑ i = 1 n ( y i − y ‾ ) 2 SST=\sum_{i=1}^{n}(y_{i}-\overline y)^{2} SST=i=1∑n(yi−y)2 - 解释(回归)平方和(regression sum of squares)
S S R = ∑ i = 1 n ( y ^ i − y ‾ ) 2 SSR=\sum_{i=1}^{n}(\hat y_{i}-\overline y)^{2} SSR=i=1∑n(y^i−y)2 - 残差平方和(error sum of squares)
S S E = ∑ i = 1 n ( y i − y ^ ) 2 SSE=\sum_{i=1}^{n}(y_{i}-\hat y)^{2} SSE=i=1∑n(yi−y^)2
决定系数:
R 2 = S S R S S T = 1 − S S E S S T R^{2} = \frac{SSR}{SST}=1-\frac{SSE}{SST} R2=SSTSSR=1−SSTSSE
3)相关系数与决定系数的区别
- 意义不同
相关系数意义:用以反映变量之间相关关系密切程度的统计指标。按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
决定系数意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归曲线附近越密集。 - 应用不同
相关系数:说明两变量间的相关关系;
决定系数:说明两变量间依存变化的数量关系。
4)相关系数平方 r 2 r^{2} r2与决定系数 R 2 R^{2} R2相等
对于线性回归,其相关系数的平方
r
2
r^{2}
r2 与决定系数
R
2
R^{2}
R2 相等
证明:
R
2
=
S
S
R
S
S
T
=
∑
i
=
1
n
(
y
^
i
−
y
‾
)
2
∑
i
=
1
n
(
y
i
−
y
‾
)
2
=
∑
i
=
1
n
(
b
x
i
−
b
x
‾
)
2
∑
i
=
1
n
(
y
i
−
y
‾
)
2
R^{2}=\frac {SSR}{SST}= \frac {\sum_{i=1}^{n}(\hat y_{i}-\overline y)^{2}}{\sum_{i=1}^{n}(y_{i}-\overline y)^{2}}=\frac {\sum_{i=1}^{n}(b x_{i}-b\overline x)^{2}}{\sum_{i=1}^{n}(y_{i}-\overline y)^{2}}
R2=SSTSSR=∑i=1n(yi−y)2∑i=1n(y^i−y)2=∑i=1n(yi−y)2∑i=1n(bxi−bx)2
=
b
2
⋅
S
x
2
S
y
2
=
(
r
⋅
S
y
S
x
)
2
⋅
S
x
2
S
y
2
=
r
2
⋅
S
y
2
S
x
2
⋅
S
x
2
S
y
2
=
r
2
=b^{2}\cdot\frac{S_{x}^{2}}{S_{y}^{2}}=\left(r\cdot\frac{S_{y}}{S_{x}}\right)^{2}\cdot\frac{S_{x}^{2}}{S_{y}^{2}}=r^{2}\cdot\frac{S_{y}^{2}}{S_{x}^{2}}\cdot\frac{S_{x}^{2}}{S_{y}^{2}}=r^{2}
=b2⋅Sy2Sx2=(r⋅SxSy)2⋅Sy2Sx2=r2⋅Sx2Sy2⋅Sy2Sx2=r2
根据第一节介绍的最小二乘法
b
=
S
x
y
S
x
x
=
S
x
y
S
x
x
S
y
y
⋅
S
y
y
S
x
x
=
r
⋅
S
y
S
x
b=\frac{S_{xy}}{S_{xx}}=\frac{S_{xy}}{\sqrt {S_{xx}S_{yy}}}\cdot\sqrt {\frac{S_{yy}}{S_{xx}}}=r\cdot\frac{S_{y}}{S_{x}}
b=SxxSxy=SxxSyySxy⋅SxxSyy=r⋅SxSy
其中
S
x
y
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
n
−
1
,
S_{xy}=\frac{\sum_{i=1}^{n}(x_{i}- \overline x)(y_{i}- \overline y)}{n-1},
Sxy=n−1∑i=1n(xi−x)(yi−y),
S
x
x
=
∑
i
=
1
n
(
x
i
−
x
‾
)
2
n
−
1
,
S_{xx}=\frac{\sum_{i=1}^{n}(x_{i}- \overline x)^{2}}{n-1},
Sxx=n−1∑i=1n(xi−x)2,
S
y
y
=
∑
i
=
1
n
(
y
i
−
y
‾
)
2
n
−
1
,
S_{yy}=\frac{\sum_{i=1}^{n}(y_{i}- \overline y)^{2}}{n-1},
Syy=n−1∑i=1n(yi−y)2,
r
=
S
x
y
S
x
x
S
y
y
,
r=\frac{S_{xy}}{\sqrt {S_{xx} S_{yy}}},
r=SxxSyySxy,
S
x
=
∑
i
=
1
n
(
x
i
−
x
‾
)
2
n
−
1
,
S_{x}=\sqrt{\frac {\sum_{i=1}^{n}(x_{i}- \overline x)^{2}}{n-1}},
Sx=n−1∑i=1n(xi−x)2,
S
y
=
∑
i
=
1
n
(
y
i
−
y
‾
)
2
n
−
1
S_{y}= \sqrt{\frac {\sum_{i=1}^{n}(y_{i}- \overline y)^{2}}{n-1}}
Sy=n−1∑i=1n(yi−y)2
可以得出一元线性回归(或拟合)时,相关系数的平方 r 2 r^{2} r2 与决定系数 R 2 R^{2} R2 相同,如果交换自变量和因变量顺序后再进行拟合,由于它们的相关系数相同,所以交换顺序后它们的决定系数也是相同的。