【数学基础】 协方差与协方差矩阵

【fishing-pan:https://blog.csdn.net/u013921430 转载请注明出处】

  
##常见的统计量

   在概率与统计中,最常见的统计量有样本均值、方差、标准差、极差以及中位数等等。这些都是最基础、最常见的统计量。
  
   均值:
X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i} Xˉ=n1i=1nXi
   方差:
S = D ( X ) = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 S=D(X)=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2} S=D(X)=n1i=1n(XiXˉ)2
   均值也就是一组数据的平均数,它可以理解成为数据分布中心或者物体的质心;而方差是数据距数据中心(也就是均值)的距离的平方的均值,它表示一组数据的离散程度,方差越大,数据分布越离散。


协方差

   除了上述常用的统计量以外,有一个在数据分析中也比较常用的统计量,它就是协方差;协方差表示两个变量的总体误差。它的计算公式如下;
c o v ( X , Y ) = 1 n ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) cov(X,Y)=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y}) cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)
   根据公式可以判断出,协方差具有以下特性;
c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)
c o v ( X , X ) = D ( X ) cov(X,X)=D(X) cov(X,X)=D(X)
   从公式中还可以初步判断出协方差的大小与 X X X Y Y Y 这两个变量的离散程度都有关,而且两个变量互相影响,例如当 ( X i − X ˉ ) (X_{i}-\bar{X}) (XiXˉ) 的绝对值很小时,如果 ( Y i − Y ˉ ) (Y_{i}-\bar{Y}) (YiYˉ) 的绝对值很大,两者乘积的绝对值也会很小。

   如果两者在变化过程中变化趋势一致,比如, X X X 变大时 Y Y Y 也变大,那么协方差是正值,表明两者正相关,例如身高越高的人往往双臂越长,那么身高跟臂长是正相关的;如果两者在变化过程中变化趋势相反,例如 X X X 变大时 Y Y Y 却变小,那么协方差是负值,两者负相关,Figure 1所示。所以它反映的是变量在变化过程中的协同性。我们可以根据协方差的这种协同性来判断数据在不同“方向”上的离散程度。

Figure 1

Figure 1

  
   强调说明

   协方差计算 只能 用于计算同一样本的不同属性(或者说是维度)之间的协方差。否则是没有意义的,因为 X i X_{i} Xi Y i Y_{i} Yi,对应的是样本中第 i i i 个个体的 X X X 属性与 Y Y Y 属性的值。比如,人的腿长与身高的协方差,这个是可以的。但是要是想计算人的腿长与树木的长度之间的协方差,明显就是没有任何意义的。


相关系数

   协方差的值的大小除了一两种变量的相关性有关外,还与变量的量纲有关。如果 X X X 是以10为量纲,而 Y Y Y 以10万为量纲,而 Z Z Z 也是以10为量纲。假设 X X X Z Z Z 之间具有很强的相关性(比如 X i = Z i X_{i}=Z_{i} Xi=Zi),而 X X X Y Y Y 之间不具有很强的相关性,但是由于量纲的影响, X X X Y Y Y 的相关系数要大于 X X X Z Z Z 的相关系数。
  
   为了能够更好地衡量变量之间的相关程度,引入了相关系数 η \eta η
η = c o v ( X , Y ) D ( X ) D ( Y ) \eta =\frac{cov(X,Y)}{\sqrt{D(X)D(Y)}} η=D(X)D(Y) cov(X,Y)
   通过让协方差除以两个变量的标准差的乘积 D ( X ) D ( Y ) \sqrt{D(X)D(Y)} D(X)D(Y) ,来消除变量量纲带来的影响。由 C a u c h y − B u n i a k o w s k y − S c h w a r z Cauchy-Buniakowsky-Schwarz CauchyBuniakowskySchwarz 不等式;
( a 2 + b 2 ) ( c 2 + d 2 ) ≥ ( a c + b d ) 2 (a^{2}+b^{2})(c^{2}+d^{2})\geq (ac+bd)^{2} (a2+b2)(c2+d2)(ac+bd)2
  所以;
D ( X ) D ( Y ) ≥ c o v ( X , Y ) \sqrt{D(X)D(Y)}\geq cov(X,Y) D(X)D(Y) cov(X,Y)
   因此, η \eta η 的取值范围为 [ − 1 , 1 ] [-1,1] [1,1] ;当 η \eta η 为正值时, X X X Y Y Y 正相关,切值越大相关性越强;同理,当 η \eta η 为负值时, X X X Y Y Y 负相关,当 η = 0 \eta=0 η=0 时, X X X Y Y Y 不相关。

   注:此处所说的相关性都是线性相关性,有可能两者之间存在非线性的相关性


协方差矩阵

   对于多维数据 X = [ X 1 , X 2 , X 3 ⋯ X n ] T X=[X_{1},X_{2},X_{3}\cdots X_{n}]^{T} X=[X1,X2,X3Xn]T ,如果需要计算各个维度两两之间的协方差,就生成了一个 n ∗ n n*n nn 的矩阵,这个矩阵就是协方差矩阵
C = ( c o v ( X 1 , X 1 ) c o v ( X 1 , X 2 ) ⋯ c o v ( X 1 , X n ) c o v ( X 2 , X 1 ) ⋱ ⋱ ⋮ ⋮ ⋱ ⋱ ⋮ c o v ( X n , X 1 ) ⋯ ⋯ c o v ( X n , X n ) ) C=\begin{pmatrix} cov(X_{1},X_{1}) & cov(X_{1},X_{2}) & \cdots & cov(X_{1},X_{n})\\ cov(X_{2},X_{1})& \ddots & \ddots & \vdots \\ \vdots & \ddots & \ddots & \vdots \\ cov(X_{n},X_{1}) & \cdots & \cdots & cov(X_{n},X_{n}) \end{pmatrix} C=cov(X1,X1)cov(X2,X1)cov(Xn,X1)cov(X1,X2)cov(X1,Xn)cov(Xn,Xn)
  由于 c o v ( X n , X 1 ) = c o v ( X 1 , X n ) cov(X_{n},X_{1}) =cov(X_{1},X_{n}) cov(Xn,X1)=cov(X1,Xn) ,所以协方差矩阵是对称阵。

协方差矩阵的意义

   协方差矩阵中的元素是数据各个维度的协方差,而矩阵的特征值与特征向量表示的是对所有元素信息的整合,也就是说协方差矩阵的特征值也是表示协方差,对应的特征向量表示协方差的方向。协方差矩阵最大特征值对应的特征向量,指向数据最大方差的方向(主方向如果将数据在空间中的分布看作高维空间的一个椭球,最大方差方向就是椭球最长轴的方向),次大特征向量与最大特征向量正交(是椭球次长轴方向)。

协方差矩阵的应用

   协方差矩阵的用处很多,最常见得用处就是主成分分析(PCA)。主成分分析主要是对数据降维,以减少计算量,方便数据分析。

   数据降维就是将高维空间的数据向低维空间投影。但是也要尽量减少数据信息损失,因此需要找到合适投影的正交坐标轴。这时候就需要用到协方差矩阵了, n ∗ n n*n nn 的矩阵有 n n n 个特征值,从大到小依次排序,将 n n n 维的数据降维至 m m m 维度可以选择从大到小的 m m m 个特征值,而这 m m m 个特征值对应的 m m m 个特征向量构成的特征空间就是最终的 m m m 维空间。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值