聚类分析是在样本个体的类别归属未知的情况下的分类方法,根据目的聚类分析可以分为:指标聚类,指标降维从而选择有代表性的指标;样品聚类,找出样品间的共性。
聚类算法:
- K-均值聚类(K-Means)
- K-中心点聚类(K-Medoids)
- 密度聚类(Densit-based Spatial Clustering of Application with Noise,DBSCAN)
- 系谱聚类(Hierarchical Clustering)
- 期望最大化聚类(Expectation Maximization,EM)
- 其他算法
K-均值聚类算法
算法原理
K-均值聚类算法,是一种迭代算法,其采用距离作为判断对象之间相似性的指标,距离越近即相似度越高。这里的距离是欧式距离:m维空间中两点之间的真实距离。如二维空间中点(x1,y1)和点(x2,y2)的欧式距离为: \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}\) 。三维空间两点之间欧式距离为 \(\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}+(z_{2}-z_{1})^{2}}\) 。多维数据可以通过PCA(主成分分析)降维,或者直接计算欧式距离。
算法过程:
- 随机选取的K(簇个数,如游戏分为:顶级、高级、中级、低级,则k = 4)个样本作为起始中心点(簇)。
- 计算每个样本的点与各起始中心点的距离,将其余样本归入距离最近的簇,这就将所有样本完成了第一次分类。
- 确定当前类(簇)中样本坐标均值,作为新的起始中心点,然后计算各样本和各个新的起始中心点的距离,将样本按照距离归入距离最近的簇中。这是第二次分类。
- 确定新的起始中心点,把样本归类,依次循环迭代,直至所有样本归属类别不在变动(即最后确定了分类)。
上图中10个样本,想分为3类,首先随机选取了3个样本点(黑色标记样本:1,2,3)(图Ⅰ)。然后计算其余样本点与这三个样本点的距离,然后根据距离分类(图Ⅱ)。计算当前分类中样本坐标均值,作为新的起始中心点(图Ⅲ,黑色小方块),然后计算样本与各新的起始中心点的距离进行分类(图Ⅳ)。然后图Ⅳ分类中再计算各类中样本坐标均值作为新的起始中心点(图Ⅳ中的黑色小方块),计算各样本和各新的起始中心点的距离,进行分类(图Ⅴ),发现图Ⅳ和图Ⅴ相同,即分类不在变化,标志分类完成。
K-均值算法的优缺点
优点:
- 简单、快速
- 对处理大数据集,保持可伸缩性和高效性
- 当簇接近高斯分布时,分类效果较好
缺点:
- K值需事先给定,现实中难以估计
- 对起始中心点的选择对聚类效果有较大影响,起始中心点难以确定
- 算法需要不断迭代计算样本坐标均值作为新的起始中心点,对非常大的数据量比较费时
- 对噪声和孤立点数据敏感,即当簇中包含异常点,将导致均值偏离严重
- 不适用于发现大小差别很大的簇
R的实现
K-Means算法在R中的实现的核心函数为stats包中的kmeans()函数。
kmeans(x, centers, iter.max = 10, nstart = 1,
algorithm = c("Hartigan-Wong", "Lloyd", "Forgy",
"MacQueen"), trace=FALSE)
## S3 method for class 'kmeans'
fitted(object, method = c("centers", "classes"), ...)
- x:待进行聚类分析的数据集
- centers:预设分类(簇)数目,即K值
- iter.max:最大迭代次数,默认值为10
- nstart:选择随机起始中心点的次数,默认值为1
- a