[聚类一]之距离计算

最新推荐文章于 2023-05-29 12:58:20 发布

背包_十年

最新推荐文章于 2023-05-29 12:58:20 发布

阅读量7.3k

点赞数 2

分类专栏： faicutly 机器学习文章标签：机器学习聚类距离计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/neu_chenguangq/article/details/79451966

版权

本文介绍了在聚类分析中几种常见的距离计算方法，包括闵科夫斯基距离、VDM（Value Difference Metric）、余弦距离、马氏距离以及KL散度。这些距离指标用于衡量样本之间的相似性，特别是在处理不同属性类型的数据时。例如，余弦距离适合高维数据，而马氏距离考虑了属性间的关联。文章还提供了相关Python实现和参考资料。

摘要由CSDN通过智能技术生成

距离计算

我们通常采用计算“距离”的方法来度量不同样本之间的相似性，进而判断该样本的大致类别。距离首先是一个几何概念，用 $\mathrm{dist}(\cdot,\cdot)$ 表示，其中最为任熟悉的是二维和三维几何空间的欧几里德距离，随着数据维度的增大，距离在维数、幂次数等方面被推广了，距离被抽象为满足一些基本性质：

非负性：

d i s t (x i, x j) \geq 0; (1.1)

$\mathrm{dist}(x_{i},x_{j})\geq0;\tag{1.1}$
同一性：

d i s t (x i, x j) = 0 ， 当 且 仅 当 x i = x j; (1.2)

$\mathrm{dist}(x_{i},x_{j})=0，当且仅当x_{i}=x_{j};\tag{1.2}$
对称性：

d i s t (x i, x j) = d i s t (x j, x i); (1.3)

$\mathrm{dist}(x_{i},x_{j})=\mathrm{dist}(x_{j},x_{i});\tag{1.3}$
直递性：

d i s t (x i, x j) \leq d i s t (x i, x k) + d i s t (x k, x j); (1.3)

$\mathrm{dist}(x_{i},x_{j})\leq\mathrm{dist}(x_{i},x_{k})+\mathrm{dist}(x_{k},x_{j});\tag{1.3}$
需要注意的是，用于相似度度量的距离未必一定满足以上所有的性质，尤其是直递性(1.3)。例如在某些任务中我们可能希望有这样的相似度度量：“人”“马”分别与“人马”相似，但“人”与“马”很不相似；要达到这个目的，可以令“人”“马”与“人马”之间的距离很小，但“人”与“马”之间的距离很大，如下图所示：
这里写图片描述

这里写图片描述

为了让大家对各种距离计算方法的应用场景有个清楚的认识，在讲距离计算方法之前，我先介绍一下几个名词。

属性：即样本本身所具有的特征，样本空间中的维度，就是属性的个数。
连续属性：样本的属性在定义域上有无穷多个可能的取值，比如说树的高度在 $\left [ 7,10 \right ]$ 米之间，其取值是无穷多的。
离散属性：样本的属性在定义域上是有限个取值，比如说树的品种，肯定是有限的，只能从 $\left \{ 白杨树,柳树,...,桃树\right \}$ 中取值，那么树的品种就属于离散属性
有序属性：就是说，属性的值能直接用来计算计算距离。例如树的高度。
无序属性：就是说，属性的值不能直接用来计算计算距离。例如树的品种。
因此所有样本的属性都可划分为有序属性或者无序属性，或者同时具有有序属性和无序属性，这里我们成为混合属性。针对于有序属性的样本，我们常常使用闵科夫斯基距离计算公式来衡量样本之间的相似度，针对于无序属性的样本我们可采用 $\mathrm{VDM}$ $( \mathrm{Value}$ Dif

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。