K-means聚类算法、Pandas绘制概率密度图和TSNE展示聚类结果

最新推荐文章于 2024-05-23 09:47:37 发布

watermelon12138

最新推荐文章于 2024-05-23 09:47:37 发布

阅读量1w

点赞数 13

分类专栏：数据挖掘机器学习文章标签： K-means聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/watermelon12138/article/details/86549474

版权

K-means聚类算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的K个类，使得K个类达到类内数据距离之和最小而类间距离之和最大。它是无监督学习算法，采用距离作为相似性的度量指标，即认为两个对象距离越近，其相似性就越大。
1、数据类型与相似性度量
(1)连续属性和离散属性数据
对于连续属性，要依次对每个属性的属性值进行零-均值化处理；对于离散属性，要依次对每个属性的属性值进行数值化处理。然后通过计算距离来度量相似性，K-means聚类算法中一般需要计算样本间的距离，样本和簇的距离，簇和簇的距离。其中，样本间的距离通常用欧式距离(欧几里得距离)、曼哈顿距离和闵可夫斯基距离，样本和簇的距离可以用样本到簇中心的距离代替，簇和簇距离可以用簇中心到簇中心的距离代替。
假定有n个样本，每个样本有p个属性，则可得如下数据矩阵：
在这里插入图片描述
设1<i , j<n代表样本；1<u<p代表属性，所以Xi和Xj就代表任意的两个样本，
则可计算如下距离。

欧几里得距离：
在这里插入图片描述
曼哈顿距离：

闵可夫斯基距离：

可见当q=1时，闵可夫斯基距离就是曼哈顿距离，当q=2时，闵可夫斯基距离就是欧氏距离。

(2)文档数据
对于文档数据采用余弦相似性度量，首先统计文档中重要的词汇出现的频数，然后将文档数据整理成文档—词矩阵格式，如下所示：
在这里插入图片描述
两个文档间的相似性计算公式：
(按行将每个文档生成为一个向量，则可得两个向量间的余弦)

最低0.47元/天解锁文章

watermelon12138

关注

13
点赞
踩
76

收藏

觉得还不错? 一键收藏
3
评论
K-means聚类算法、Pandas绘制概率密度图和TSNE展示聚类结果

K-means聚类算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的K个类，使得K个类达到类内数据距离之和最小而类间距离之和最大。它是无监督学习算法，采用距离作为相似性的度量指标，即认为两个对象距离越近，其相似性就越大。1、数据类型与相似性度量(1)连续属性和离散属性数据对于连续属性，要依次对每个属性的属性值进行零-均值化处理；对于离散属性，要依次对每个属性的属...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。