机器学习中距离和相似性度量方法

最新推荐文章于 2023-10-10 09:43:43 发布

是杰夫呀

最新推荐文章于 2023-10-10 09:43:43 发布

阅读量1.6k

点赞数

分类专栏：算法 Algorithm 文章标签：机器学习相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_26811377/article/details/103218347

版权

在机器学习和数据挖掘中，选择合适的距离和相似性度量方法至关重要。本文介绍了多种方法，如闵可夫斯基距离（包括欧式距离、曼哈顿距离和切比雪夫距离）、马氏距离、向量内积（如余弦相似度）、分类数据点间的距离（汉明距离和杰卡德相似度）以及序列距离（编辑距离和DTW距离）。这些方法在不同场景下有不同的适用性，如KNN和K-Means算法中对距离的要求。此外，还讨论了概率分布之间的距离，如KL散度，用于评估样本分布的相似性。

摘要由CSDN通过智能技术生成

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。

根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则：

d(x,x) = 0 // 到自己的距离为0
d(x,y) >= 0 // 距离非负
d(x,y) = d(y,x) // 对称性：如果 A 到 B 距离是 a，那么 B 到 A 的距离也应该是 a
d(x,k)+ d(k,y) >= d(x,y) // 三角形法则：两边之和大于第三边

1. 闵可夫斯基距离（欧式距离、曼哈顿距离、切比雪夫距离）

闵可夫斯基距离（Minkowski distance）是衡量数值点之间距离的一种非常常见的方法，假设数值点 P 和 Q 坐标如下：

那么，闵可夫斯基距离定义为：

该距离最常用的 p 是 2 和 1, 前者是欧几里得欧式距离（Euclidean distance），后者是曼哈顿距离（Manhattan distance）。假设在曼哈顿街区乘坐出租车从 P 点到 Q 点，白色表示高楼大厦，灰色表示街道：

欧几里得距离：绿色的斜线，在现实中无法实现。
曼哈顿距离：红色黄色和蓝色斜线，这三条折线的长度是相等的。
切比雪夫距离：当 p 趋近于无穷大时，闵可夫斯基距离转化成切比雪夫距离（Chebyshev Distance）

我们知道平面上到原点欧几里得距离（p = 2）为 1 的点所组成的形状是一个圆，当 p 取其他数值的时候呢？

注意，当 p < 1 时，闵可夫斯基距离不再符合三角形法则，举个例子：当 p < 1, (0,0) 到 (1,1) 的距离等于 (1+1)^{1/p} > 2, 而 (0,1) 到这两个点的距离都是 1。

闵可夫斯基距离比较直观，但是它与数据的分布无关，具有一定的局限性。如果 x 方向的幅值远远大于 y 方向的值，这个距离公式就会过度放大 x 维度的作用。所以，在计算距离之前

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。