【fishing-pan:https://blog.csdn.net/u013921430 转载请注明出处】
##常见的统计量
在概率与统计中,最常见的统计量有样本均值、方差、标准差、极差以及中位数等等。这些都是最基础、最常见的统计量。
均值:
X
ˉ
=
1
n
∑
i
=
1
n
X
i
\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}
Xˉ=n1i=1∑nXi
方差:
S
=
D
(
X
)
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S=D(X)=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
S=D(X)=n1i=1∑n(Xi−Xˉ)2
均值也就是一组数据的平均数,它可以理解成为数据分布中心或者物体的质心;而方差是数据距数据中心(也就是均值)的距离的平方的均值,它表示一组数据的离散程度,方差越大,数据分布越离散。
协方差
除了上述常用的统计量以外,有一个在数据分析中也比较常用的统计量,它就是协方差;协方差表示两个变量的总体误差。它的计算公式如下;
c
o
v
(
X
,
Y
)
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
(
Y
i
−
Y
ˉ
)
cov(X,Y)=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})
cov(X,Y)=n1i=1∑n(Xi−Xˉ)(Yi−Yˉ)
根据公式可以判断出,协方差具有以下特性;
c
o
v
(
X
,
Y
)
=
c
o
v
(
Y
,
X
)
cov(X,Y)=cov(Y,X)
cov(X,Y)=cov(Y,X)
c
o
v
(
X
,
X
)
=
D
(
X
)
cov(X,X)=D(X)
cov(X,X)=D(X)
从公式中还可以初步判断出协方差的大小与
X
X
X、
Y
Y
Y 这两个变量的离散程度都有关,而且两个变量互相影响,例如当
(
X
i
−
X
ˉ
)
(X_{i}-\bar{X})
(Xi−Xˉ) 的绝对值很小时,如果
(
Y
i
−
Y
ˉ
)
(Y_{i}-\bar{Y})
(Yi−Yˉ) 的绝对值很大,两者乘积的绝对值也会很小。
如果两者在变化过程中变化趋势一致,比如, X X X 变大时 Y Y Y 也变大,那么协方差是正值,表明两者正相关,例如身高越高的人往往双臂越长,那么身高跟臂长是正相关的;如果两者在变化过程中变化趋势相反,例如 X X X 变大时 Y Y Y 却变小,那么协方差是负值,两者负相关,Figure 1所示。所以它反映的是变量在变化过程中的协同性。我们可以根据协方差的这种协同性来判断数据在不同“方向”上的离散程度。
强调说明 :
协方差计算 只能 用于计算同一样本的不同属性(或者说是维度)之间的协方差。否则是没有意义的,因为 X i X_{i} Xi、 Y i Y_{i} Yi,对应的是样本中第 i i i 个个体的 X X X 属性与 Y Y Y 属性的值。比如,人的腿长与身高的协方差,这个是可以的。但是要是想计算人的腿长与树木的长度之间的协方差,明显就是没有任何意义的。
相关系数
协方差的值的大小除了一两种变量的相关性有关外,还与变量的量纲有关。如果
X
X
X 是以10为量纲,而
Y
Y
Y 以10万为量纲,而
Z
Z
Z 也是以10为量纲。假设
X
X
X 与
Z
Z
Z 之间具有很强的相关性(比如
X
i
=
Z
i
X_{i}=Z_{i}
Xi=Zi),而
X
X
X、
Y
Y
Y 之间不具有很强的相关性,但是由于量纲的影响,
X
X
X 与
Y
Y
Y 的相关系数要大于
X
X
X 与
Z
Z
Z 的相关系数。
为了能够更好地衡量变量之间的相关程度,引入了相关系数
η
\eta
η ;
η
=
c
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
\eta =\frac{cov(X,Y)}{\sqrt{D(X)D(Y)}}
η=D(X)D(Y)cov(X,Y)
通过让协方差除以两个变量的标准差的乘积
D
(
X
)
D
(
Y
)
\sqrt{D(X)D(Y)}
D(X)D(Y) ,来消除变量量纲带来的影响。由
C
a
u
c
h
y
−
B
u
n
i
a
k
o
w
s
k
y
−
S
c
h
w
a
r
z
Cauchy-Buniakowsky-Schwarz
Cauchy−Buniakowsky−Schwarz 不等式;
(
a
2
+
b
2
)
(
c
2
+
d
2
)
≥
(
a
c
+
b
d
)
2
(a^{2}+b^{2})(c^{2}+d^{2})\geq (ac+bd)^{2}
(a2+b2)(c2+d2)≥(ac+bd)2
所以;
D
(
X
)
D
(
Y
)
≥
c
o
v
(
X
,
Y
)
\sqrt{D(X)D(Y)}\geq cov(X,Y)
D(X)D(Y)≥cov(X,Y)
因此,
η
\eta
η 的取值范围为
[
−
1
,
1
]
[-1,1]
[−1,1] ;当
η
\eta
η 为正值时,
X
X
X、
Y
Y
Y 正相关,切值越大相关性越强;同理,当
η
\eta
η 为负值时,
X
X
X、
Y
Y
Y 负相关,当
η
=
0
\eta=0
η=0 时,
X
X
X、
Y
Y
Y 不相关。
注:此处所说的相关性都是线性相关性,有可能两者之间存在非线性的相关性
协方差矩阵
对于多维数据
X
=
[
X
1
,
X
2
,
X
3
⋯
X
n
]
T
X=[X_{1},X_{2},X_{3}\cdots X_{n}]^{T}
X=[X1,X2,X3⋯Xn]T ,如果需要计算各个维度两两之间的协方差,就生成了一个
n
∗
n
n*n
n∗n 的矩阵,这个矩阵就是协方差矩阵。
C
=
(
c
o
v
(
X
1
,
X
1
)
c
o
v
(
X
1
,
X
2
)
⋯
c
o
v
(
X
1
,
X
n
)
c
o
v
(
X
2
,
X
1
)
⋱
⋱
⋮
⋮
⋱
⋱
⋮
c
o
v
(
X
n
,
X
1
)
⋯
⋯
c
o
v
(
X
n
,
X
n
)
)
C=\begin{pmatrix} cov(X_{1},X_{1}) & cov(X_{1},X_{2}) & \cdots & cov(X_{1},X_{n})\\ cov(X_{2},X_{1})& \ddots & \ddots & \vdots \\ \vdots & \ddots & \ddots & \vdots \\ cov(X_{n},X_{1}) & \cdots & \cdots & cov(X_{n},X_{n}) \end{pmatrix}
C=⎝⎜⎜⎜⎜⎛cov(X1,X1)cov(X2,X1)⋮cov(Xn,X1)cov(X1,X2)⋱⋱⋯⋯⋱⋱⋯cov(X1,Xn)⋮⋮cov(Xn,Xn)⎠⎟⎟⎟⎟⎞
由于
c
o
v
(
X
n
,
X
1
)
=
c
o
v
(
X
1
,
X
n
)
cov(X_{n},X_{1}) =cov(X_{1},X_{n})
cov(Xn,X1)=cov(X1,Xn) ,所以协方差矩阵是对称阵。
协方差矩阵的意义
协方差矩阵中的元素是数据各个维度的协方差,而矩阵的特征值与特征向量表示的是对所有元素信息的整合,也就是说协方差矩阵的特征值也是表示协方差,对应的特征向量表示协方差的方向。协方差矩阵最大特征值对应的特征向量,指向数据最大方差的方向(主方向如果将数据在空间中的分布看作高维空间的一个椭球,最大方差方向就是椭球最长轴的方向),次大特征向量与最大特征向量正交(是椭球次长轴方向)。
协方差矩阵的应用
协方差矩阵的用处很多,最常见得用处就是主成分分析(PCA)。主成分分析主要是对数据降维,以减少计算量,方便数据分析。
数据降维就是将高维空间的数据向低维空间投影。但是也要尽量减少数据信息损失,因此需要找到合适投影的正交坐标轴。这时候就需要用到协方差矩阵了, n ∗ n n*n n∗n 的矩阵有 n n n 个特征值,从大到小依次排序,将 n n n 维的数据降维至 m m m 维度可以选择从大到小的 m m m 个特征值,而这 m m m 个特征值对应的 m m m 个特征向量构成的特征空间就是最终的 m m m 维空间。