聚类方法总结以及代码实现

最新推荐文章于 2022-03-02 17:21:56 发布

Rudy95

最新推荐文章于 2022-03-02 17:21:56 发布

阅读量2.5k

点赞数

分类专栏：机器学习基础

本文链接：https://blog.csdn.net/Rudy95/article/details/93605515

版权

本文详细介绍了多种聚类方法，包括K-means算法的原理、流程，强调了k值选择与质心初始化的重要性，并讨论了其局限性。接着介绍了高斯混合模型，以及密度聚类中的DBSCAN算法，强调了DBSCAN的优点如对噪声不敏感，能发现任意形状的簇，同时也指出了其参数敏感和大数据集下的效率问题。最后提到了层次聚类和谱聚类。

摘要由CSDN通过智能技术生成

距离度量：闵科夫斯基距离
针对有序的属性可以使用闵科夫斯基距离，无序的属性使用VDM

K-means法

k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。
K-means的算法流程：
首先我们看看K-Means算法的一些要点。
　　　　1）对于K-Means算法，首先要注意的是k值的选择，一般来说，我们会根据对数据的先验经验选择一个合适的k值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的k值。
　　　　2）在确定了k的个数后，我们需要选择k个初始化的质心。由于我们是启发式方法，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心，最好这些质心不能太近。
　　　　好了，现在我们来总结下传统的K-Means算法流程。　
　　　　输入是样本集D={x1,x2,…xm},聚类的簇树k,最大迭代次数N
　　　　输出是簇划分C={C1,C2,…Ck}　
　　　　1) 从数据集D中随机选择k个样本作为初始的k个质心向量： {μ1,μ2,…,μk}
　　　　2）对于n=1,2,…,N
　　　　　　a) 将簇划分C初始化为Ct=∅t=1,2…k
　　　　　　b) 对于i=1,2…m,计算样本xi和各个质心向量μj(j=1,2,…k)的距离：dij=||xi−μj||22，将xi标记最小的为dij所对应的类别λi。此时更新Cλi=Cλi∪{xi}
　　　　　　c) 对于j=1,2,…,k,对Cj中所有的样本点重新计算新的质心μj=1|Cj|∑x∈Cjx
　　　　　　e) 如果所有的k个质心向量都没有发生变化，则转到步骤3）
　　　　3）输出簇划分C={C1,C2,…Ck}
K-means总结：
1）对于K-Means算法，首先要注意的是k值的选择，一般来说，我们会根据对数据的先验经验选择一个合适的k值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的k值。

2）在确定了k的个数后，我们需要选择k个初始化的质心，就像上图b中的随机质心。由于我们是启发式方法，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响