[数据挖掘]数学基础---距离度量方式(马氏距离,欧式距离,曼哈顿距离)

马氏距离

概念:马氏距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效的计算两个位置样本集相似度的方法。

马氏距离的定义:设总体G为m维总体(考察m个指标),均值向量为 μ=(μ1,μ2,...,μm) ,协方差阵为 =(σij) ,则样品 X=(x1x2...,xm) 与总体G的马氏距离定义为

d2(X,G)=(Xμ)1(Xμ)
m=1 时, 1=1σ2 ,所以
d2(x,G)=(xμ)2σ2

下面来谈个例子,关于马氏距离在距离判别的应用(例子来源自北大数学学院PPT,参考资料已经注明)。

例子:已知有2个类G1和G2,G1是设备A生产的产品,G2是设备B生产的产品。设备A的产品质量高,其平均耐磨度 μG1=80 ,反映设备精度的方差 σ2(G1)=0.25 ;设备B的产品质量稍差,其平均耐磨度 μG2=75 ,反映设备精度的方差 σ2(G1)=4 。现在有一产品 X0 x_{0}=78$,试判断该产品是哪一台设备生产的?

直观的看, X0 μ1 的绝对距离近些,按距离最近的原则产品 X0 将被认为是A生产的。但是考虑到方差,这种判断是不合理的。

现在考虑用马氏距离来解决这个问题。
根据定义,此时的m=1
d2(x0,G1)=(xμ1)2σ21=(7880)20.25=16
d2(x0,G2)=(xμ2)2σ22=(7875)24=2.25
明显后者小于前者,所以为B生产。
可以这样理解这个例子:设备B生产的质量较分散,出现 X0 的可能性仍然较大。
马氏距离是一种相对于分散性的距离。

应该注意马氏距离如下的性质:

1.如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离。
2.马氏距离的计算是建立在总体样本的基础上的。
3.计算马氏距离要求总体样本数大于样本的维度。
4.当协方差矩阵的逆矩阵(样本在所处平面内共线),这种情况用欧式距离计算即可。

欧式距离

笔者在另外一篇回顾性的博文中,提到过范数的概念,点击博文链接机器学习之数学知识回顾。其实曼哈顿距离和欧式距离分别是 L1 h和 L2 范数。
定义:

L1(xi,xj)=(ni=1|x(l)ix(l)j|2)(12)

曼哈顿距离

曼哈顿距离也称为出租车几何,由赫尔曼-敏可夫斯基提出,如下图所示。两点直接的直线距离为欧式距离,而横纵坐标绝对值之和的值代表曼哈顿距离。
这里写图片描述

L1(xi,xj)=(ni=1|x(l)ix(l)j|)

参考资料

[1] http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[2]http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[3]胡婷婷。厦门大学硕士论文。数据挖掘中的离群点检测算法研究。2014年。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值