距离和相似性度量方法

目录

1. 闵可夫斯基距离:欧几里得距离、曼哈顿距离、切比雪夫距离
2. 马氏距离
3. 向量内积:余弦相似度、皮尔逊相关系数
4. 分类数据点间的距离:汉明距离、杰卡德相似系数
5. 序列之间的距离:编辑距离、DTW 距离
6. 概率分布之间的距离:KL 散度
7. Hellinger距离

在机器学习中,经常需要比较个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:

  1. d(x,x) = 0 // 同一性:到自己的距离为0
  2. d(x,y) >= 0 // 非负性:距离非负
  3. d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a
  4. d(x,k)+ d(k,y) >= d(x,y) // 三角形法则: 两边之和大于第三边

常见的距离:闵可夫斯基距离(欧几里得距离、曼哈顿距离、切比雪夫距离)、马氏距离、余弦相似度&皮尔逊相关系数、汉明距离&杰卡德相似系数、编辑距离&DTW 距离、KL 散度

1. 闵可夫斯基距离:欧几里得距离、曼哈顿距离、切比雪夫距离

闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法,假设数值点 P 和 Q 坐标如下:
这里写图片描述
那么,闵可夫斯基距离定义为:
这里写图片描述
该距离最常用的 p 是 2 和 1, 前者是欧几里得距离(Euclidean distance),后者是曼哈顿距离(Manhattan distance)。假设在曼哈顿街区乘坐出租车从 P 点到 Q 点,白色表示高楼大厦,灰色表示街道:
这里写图片描述
绿色的斜线表示欧几里得距离,在现实中是不可能的。其他三条折线表示了曼哈顿距离,这三条折线的长度是相等的。
当 p 趋近于无穷大时,闵可夫斯基距离转化成切比雪夫距离(Chebyshev distance):
这里写图片描述
若将国际象棋棋盘放在二维直角坐标系中,格子的边长定义为1,座标的x轴及y轴和棋盘方格平行,原点恰落在某一格的中心点,则王从一个位置走到其他位置需要的最少步数恰为二个位置的切比雪夫距离,因此切比雪夫距离也称为棋盘距离。
“加权(weighted)”闵可夫斯基距离:当样本中不同属性的重要性不同时,可使用”加权距离”(weighted distance)
这里写图片描述
我们知道平面上到原点欧几里得距离(p = 2)为 1 的点所组成的形状是一个圆,当 p 取其他数值的时候呢?

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值