R语言--聚类分析

本文深入探讨了R语言中的聚类分析,包括K-均值、K-中心点、系谱聚类和密度聚类的算法原理、R实现及实例分析。K-均值算法因其简单快速的特点被广泛使用,但也存在对初始中心点敏感和对异常值敏感等缺点。文章通过实例展示了如何在R中使用kmeans()函数进行K-均值聚类,并讨论了K-中心点聚类的改进之处。此外,文章还介绍了系谱聚类和密度聚类,如DBSCAN,以及在R中的实现方法。
摘要由CSDN通过智能技术生成

聚类分析是在样本个体的类别归属未知的情况下的分类方法,根据目的聚类分析可以分为:指标聚类,指标降维从而选择有代表性的指标;样品聚类,找出样品间的共性。
聚类算法:

  • K-均值聚类(K-Means)
  • K-中心点聚类(K-Medoids)
  • 密度聚类(Densit-based Spatial Clustering of Application with Noise,DBSCAN)
  • 系谱聚类(Hierarchical Clustering)
  • 期望最大化聚类(Expectation Maximization,EM)
  • 其他算法

K-均值聚类算法

算法原理

K-均值聚类算法,是一种迭代算法,其采用距离作为判断对象之间相似性的指标,距离越近即相似度越高。这里的距离是欧式距离:m维空间中两点之间的真实距离。如二维空间中点(x1,y1)和点(x2,y2)的欧式距离为: \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}\) 。三维空间两点之间欧式距离为 \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}+(z_{2}-z_{1})^{2}}\) 。多维数据可以通过PCA(主成分分析)降维,或者直接计算欧式距离。
算法过程:

  1. 随机选取的K(簇个数,如游戏分为:顶级、高级、中级、低级,则k = 4)个样本作为起始中心点(簇)。
  2. 计算每个样本的点与各起始中心点的距离,将其余样本归入距离最近的簇,这就将所有样本完成了第一次分类。
  3. 确定当前类(簇)中样本坐标均值,作为新的起始中心点,然后计算各样本和各个新的起始中心点的距离,将样本按照距离归入距离最近的簇中。这是第二次分类。
  4. 确定新的起始中心点,把样本归类,依次循环迭代,直至所有样本归属类别不在变动(即最后确定了分类)。

1614668-20190711164525371-1261516401.png
上图中10个样本,想分为3类,首先随机选取了3个样本点(黑色标记样本:1,2,3)(图Ⅰ)。然后计算其余样本点与这三个样本点的距离,然后根据距离分类(图Ⅱ)。计算当前分类中样本坐标均值,作为新的起始中心点(图Ⅲ,黑色小方块),然后计算样本与各新的起始中心点的距离进行分类(图Ⅳ)。然后图Ⅳ分类中再计算各类中样本坐标均值作为新的起始中心点(图Ⅳ中的黑色小方块),计算各样本和各新的起始中心点的距离,进行分类(图Ⅴ),发现图Ⅳ和图Ⅴ相同,即分类不在变化,标志分类完成。

K-均值算法的优缺点

优点:

  • 简单、快速
  • 对处理大数据集,保持可伸缩性和高效性
  • 当簇接近高斯分布时,分类效果较好

缺点:

  • K值需事先给定,现实中难以估计
  • 对起始中心点的选择对聚类效果有较大影响,起始中心点难以确定
  • 算法需要不断迭代计算样本坐标均值作为新的起始中心点,对非常大的数据量比较费时
  • 对噪声和孤立点数据敏感,即当簇中包含异常点,将导致均值偏离严重
  • 不适用于发现大小差别很大的簇

R的实现

K-Means算法在R中的实现的核心函数为stats包中的kmeans()函数。

kmeans(x, centers, iter.max = 10, nstart = 1,
       algorithm = c("Hartigan-Wong", "Lloyd", "Forgy",
                     "MacQueen"), trace=FALSE)
## S3 method for class 'kmeans'
fitted(object, method = c("centers", "classes"), ...)
  • x:待进行聚类分析的数据集
  • centers:预设分类(簇)数目,即K值
  • iter.max:最大迭代次数,默认值为10
  • nstart:选择随机起始中心点的次数,默认值为1
  • a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值