R语言--聚类分析

最新推荐文章于 2024-09-19 12:21:20 发布

weixin_30920597

最新推荐文章于 2024-09-19 12:21:20 发布

阅读量2.5k

点赞数 1

文章标签： r语言人工智能数据结构与算法

原文链接：http://www.cnblogs.com/sakura-d/p/11170901.html

版权

本文深入探讨了R语言中的聚类分析，包括K-均值、K-中心点、系谱聚类和密度聚类的算法原理、R实现及实例分析。K-均值算法因其简单快速的特点被广泛使用，但也存在对初始中心点敏感和对异常值敏感等缺点。文章通过实例展示了如何在R中使用kmeans()函数进行K-均值聚类，并讨论了K-中心点聚类的改进之处。此外，文章还介绍了系谱聚类和密度聚类，如DBSCAN，以及在R中的实现方法。

摘要由CSDN通过智能技术生成

聚类分析是在样本个体的类别归属未知的情况下的分类方法，根据目的聚类分析可以分为：指标聚类，指标降维从而选择有代表性的指标；样品聚类，找出样品间的共性。
聚类算法：

K-均值聚类（K-Means）
K-中心点聚类（K-Medoids）
密度聚类（Densit-based Spatial Clustering of Application with Noise,DBSCAN）
系谱聚类（Hierarchical Clustering）
期望最大化聚类（Expectation Maximization,EM)
其他算法

K-均值聚类算法

算法原理

K-均值聚类算法，是一种迭代算法，其采用距离作为判断对象之间相似性的指标，距离越近即相似度越高。这里的距离是欧式距离：m维空间中两点之间的真实距离。如二维空间中点(x1,y1)和点(x2,y2)的欧式距离为： \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}\) 。三维空间两点之间欧式距离为 \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}+(z_{2}-z_{1})^{2}}\) 。多维数据可以通过PCA（主成分分析）降维，或者直接计算欧式距离。
算法过程：

随机选取的K（簇个数，如游戏分为：顶级、高级、中级、低级，则k = 4）个样本作为起始中心点（簇）。
计算每个样本的点与各起始中心点的距离，将其余样本归入距离最近的簇，这就将所有样本完成了第一次分类。
确定当前类（簇）中样本坐标均值，作为新的起始中心点，然后计算各样本和各个新的起始中心点的距离，将样本按照距离归入距离最近的簇中。这是第二次分类。
确定新的起始中心点，把样本归类，依次循环迭代，直至所有样本归属类别不在变动（即最后确定了分类）。

上图中10个样本，想分为3类，首先随机选取了3个样本点（黑色标记样本：1，2，3）（图Ⅰ）。然后计算其余样本点与这三个样本点的距离，然后根据距离分类（图Ⅱ）。计算当前分类中样本坐标均值，作为新的起始中心点（图Ⅲ，黑色小方块），然后计算样本与各新的起始中心点的距离进行分类（图Ⅳ）。然后图Ⅳ分类中再计算各类中样本坐标均值作为新的起始中心点（图Ⅳ中的黑色小方块），计算各样本和各新的起始中心点的距离，进行分类（图Ⅴ），发现图Ⅳ和图Ⅴ相同，即分类不在变化，标志分类完成。

K-均值算法的优缺点

优点：

简单、快速
对处理大数据集，保持可伸缩性和高效性
当簇接近高斯分布时，分类效果较好

缺点：

K值需事先给定，现实中难以估计
对起始中心点的选择对聚类效果有较大影响，起始中心点难以确定
算法需要不断迭代计算样本坐标均值作为新的起始中心点，对非常大的数据量比较费时
对噪声和孤立点数据敏感，即当簇中包含异常点，将导致均值偏离严重
不适用于发现大小差别很大的簇

R的实现

K-Means算法在R中的实现的核心函数为stats包中的kmeans()函数。

kmeans(x, centers, iter.max = 10, nstart = 1,
       algorithm = c("Hartigan-Wong", "Lloyd", "Forgy",
                     "MacQueen"), trace=FALSE)
## S3 method for class 'kmeans'
fitted(object, method = c("centers", "classes"), ...)