(以下内容纯粹抄书。书名:《数字信号处理的Matlab实现》)
——————————
相关关系有三种情况:完全相关、完全独立、统计相关;
其相关性又可分为三类:简单相关、复相关、偏相关;
为确定数据之间的统计关系,需对数据进行拟合,通过求得回归方程或经验公式来描述两个或多个随机变量之间的关系。
已知随机变量样本点x和y,假定变量y和x服从
y
=
a
+
b
x
\ y=a+bx
y=a+bx。借助最小二乘法求解回归系数a和b,求解过程中残差平方和应最小:
r
=
∑
(
y
i
−
b
x
i
−
a
)
2
=
m
i
n
\ r=\sum (y_i- bx_i-a)^2=min
r=∑(yi−bxi−a)2=min 让残差平方和分别对回归系数a和b求偏导,并使偏导结果得0,即可求出a和b的值。
假定y为自变量,x为因变量,有
x
=
a
′
+
b
′
y
\ x=a'+b'y
x=a′+b′y,易得到b’。
若随机变量x和y之间不存在相关性,则回归系数b应为0,b’也应为0
令
b
∗
b
′
\ b*b'
b∗b′的平方根为相关系数
r
\ r
r,
r
\ r
r的公式为:
r
=
∑
(
y
i
−
y
ˉ
)
(
x
i
−
x
ˉ
)
∑
(
y
i
−
y
ˉ
)
2
∑
(
x
i
−
x
ˉ
)
2
\ r=\frac{\sum (y_i- \bar{y})(x_i- \bar{x})}{\sqrt{\sum (y_i- \bar{y})^2\sum(x_i- \bar{x})^2}}
r=∑(yi−yˉ)2∑(xi−xˉ)2∑(yi−yˉ)(xi−xˉ)式中带“拔”的是均值。
通常使用均方误差(标准误差)来描述回归直线的误差,where:
S
y
′
=
∑
(
y
i
−
y
′
)
2
N
−
2
\ S_{y'}=\sqrt{\frac{\sum (y_i- y')^2}{N-2}}
Sy′=N−2∑(yi−y′)2式中,y’为模拟值。由于必须要有3个点才能求“剩余均方误差”,因此分母“N-2”中的2为自由度。
此外,还有回归系数a和b的均方误差
S
a
,
S
b
\ S_a,S_b
Sa,Sb、总均方差
S
y
\ S_y
Sy、回归均方差
S
Q
\ S_Q
SQ和剩余均方差
S
y
′
\ S_{y'}
Sy′(其代表含义在这里就不写了,可以去查数值分析书or其他教材)。
下面是一张书上自带的代码跑出来的图,在下未做任何修改