协方差、协方差矩阵、马氏距离与欧式距离的理解
最近在应用中,总涉及到对马氏距离的使用,而马氏距离中最重要的是协方差矩阵的计算,这些概念困扰了我很久,在查阅资料学习了解后,终于有浅显理解,做了个笔记与大家分享,才疏学浅,若理解有误欢迎批评指正。
一、 方差、协方差、协方差矩阵的概念
在统计学中,方差是单个样本集中,每个样本值与全体样本值的平均数之差的平均值的平均数,反应的是一维数组的离散程度。这里的样本集也可以换成随机变量,随机变量如果是离散的则表示为样本集,如果是连续的则可表示成连续变量,所以方差也称为度量单个随机变量的离散程度的物理量,计算公式如下:
(离散变量/样本集)
var(X)= E[(X−E[X])2](连续变量)
在概率论和统计中,协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关,协方差越大,完全线性无关,协方差为零。定义如下:
cov(X,Y)=E[(X−E[X])(Y−E[Y])]
当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。
cov(X,X)=E[(X−E[X])(X−E[X])]
或
var(X)=cov(X,X)=E[(X−E[X])2]
由于随机变量的取值范围不同,两个协方差不具备可比性。如X&