马氏距离
概念:马氏距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效的计算两个位置样本集相似度的方法。
马氏距离的定义:设总体G为m维总体(考察m个指标),均值向量为 μ=(μ1,μ2,...,μm)′ ,协方差阵为 ∑=(σij) ,则样品 X=(x1,x2,...,xm)′ 与总体G的马氏距离定义为
d2(X,G)=(X−μ)′∑−1(X−μ)
当 m=1 时, ∑−1=1σ2 ,所以
d2(x,G)=(x−μ)2σ2
下面来谈个例子,关于马氏距离在距离判别的应用(例子来源自北大数学学院PPT,参考资料已经注明)。
例子:已知有2个类G1和G2,G1是设备A生产的产品,G2是设备B生产的产品。设备A的产品质量高,其平均耐磨度 μG1=80 ,反映设备精度的方差 σ2(G1)=0.25 ;设备B的产品质量稍差,其平均耐磨度 μG2=75 ,反映设备精度的方差 σ2(G1)=4 。现在有一产品 X0,测得耐磨度 x_{0}=78$,试判断该产品是哪一台设备生产的?
直观的看, X0 与 μ1 的绝对距离近些,按距离最近的原则产品 X0 将被认为是A生产的。但是考虑到方差,这种判断是不合理的。
现在考虑用马氏距离来解决这个问题。
根据定义,此时的m=1
d2(x0,G1)=(x−μ1)2σ21=(78−80)20.25=16
d2(x0,G2)=(x−μ2)2σ22=(78−75)24=2.25
明显后者小于前者,所以为B生产。
可以这样理解这个例子:设备B生产的质量较分散,出现
X0
的可能性仍然较大。
马氏距离是一种相对于分散性的距离。
应该注意马氏距离如下的性质:
1.如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离。
2.马氏距离的计算是建立在总体样本的基础上的。
3.计算马氏距离要求总体样本数大于样本的维度。
4.当协方差矩阵的逆矩阵(样本在所处平面内共线),这种情况用欧式距离计算即可。
欧式距离
笔者在另外一篇回顾性的博文中,提到过范数的概念,点击博文链接机器学习之数学知识回顾。其实曼哈顿距离和欧式距离分别是
L1
h和
L2
范数。
定义:
L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|2)(12)
曼哈顿距离
曼哈顿距离也称为出租车几何,由赫尔曼-敏可夫斯基提出,如下图所示。两点直接的直线距离为欧式距离,而横纵坐标绝对值之和的值代表曼哈顿距离。
L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|)
参考资料
[1] http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[2]http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[3]胡婷婷。厦门大学硕士论文。数据挖掘中的离群点检测算法研究。2014年。