聚类算法汇总

最新推荐文章于 2024-08-09 23:32:16 发布

江湖小妞

最新推荐文章于 2024-08-09 23:32:16 发布

阅读量4.3k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010161630/article/details/51793141

版权

本文汇总了聚类算法，包括K-means算法的步骤、簇类个数与初始中心的选择，层次聚类的两种策略，密度聚类中的DBSCAN，以及谱聚类的概念和实现过程。K-means对初始值敏感，适用于凸形状的簇，而谱聚类则基于图论，可用于非凸形状的聚类。

摘要由CSDN通过智能技术生成

聚类算法汇总

标签（空格分隔）：机器学习

作为无监督领域(unsupervised)一个太过famous的算法了，聚类(clustering)就是对大量未知标注的数据集，按照数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小. 然而，里面仍然有很多需要注意的地方，对于聚类本身，目前也有很多改进版本了，所以还是需要总结一下的。

相似度的度量

各种相似度的度量方式及其相关性见我的这篇博客。

K-means算法

这个算法大家都熟，跟KNN是兄弟，简单实用易操作，它也是其他一些聚类算法的鼻祖。
具体的步骤为：
对于输入样本 $D = x_{1}, x_{2}, x_{3}, ... ,x_{m}$ :

选择初始的K个class center $\mu_{1}, \mu_{2},...,\mu_{K}$ ;
对于每个样本 $x_{i}$ ，将其标记为距离类别中心最近的类别，即： $y_{i} = argmin_{1\le j \le K}||x_{i} - \mu_{j}||$ ;
将每个类别中心更新为隶属该类别的所有样本的均值：
$\mu_{j} = \frac{1}{|c_{j}|\sum_{i \in c_{j}}x_{i}}$ ;
4.重复上述两步，直至算法收敛。
收敛条件为：迭代次数/簇中心变化率/最小平方误差MSE(Minimum Squared Error)
E=∑ki=1∑x∈Ci||x−μi||

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。