7.聚类分析

最新推荐文章于 2021-01-14 07:48:08 发布

北有鸣鹿

最新推荐文章于 2021-01-14 07:48:08 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘 R语言实战文章标签： 7 聚类分析

本文链接：https://blog.csdn.net/qq_39124646/article/details/83214707

版权

#####7 聚类分析#####

#####7.1.1 K-均值聚类#####
#它是一种快速聚类方法，但对于异常值或极值敏感，稳定性差，因此适合处理分布集
#中的大样本数据集。

#思路：以随机选取的k（预设类别）个数作为起始中心店，将其余样本归入相似度最高
#中心点所在的簇，再确立当前簇中样本坐标的均值为新的中心点，依次循环迭代下去，
#直至所有样本所属类别不再变动。

#####7.1.2 K-中心点聚类#####
#K-中心点算法与K-均值算法在原理上非常接近，它是针对于K-均值算法易受极值影响
#这一缺点改进算法。在原理上的差异在于选择各类别中心点时不取样本均值点，而在
#类别内选取到其余样本距离之和最小的样本为中心。

#####7.1.3 系谱聚类#####
#其聚类的过程可以通过类似于系谱图的形式呈现出来。相对于K-均值算法与K-中心点
#算法，系谱图的突出特点在于，不需事先设定类别数k，这是因为它每次迭代过程仅
#将距离近的两个样本/簇聚为一类，其运作过程将自然得到k=1至k=n(n为待分类样本
#总数)个类别的聚类结果。

#####7.1.4 密度聚类#####
#DBSCAN算法是基于密度的聚类方法中最常用的代表之一，另外还有OPTICS算法，
#DENCLUE算法。

#优势：弥补了基于距离的聚类算法的只能发现“类圆形”的缺陷，该算法由于是基于“密度”
#来聚类的，可以在具有噪声的空间数据库中发现任意形状的簇。

#DBSCAN算法：将“簇”看作是数据空间中被低密度区域分隔开的“稠密区域”，即密度相连
#样本点的最大集合。

#缺点：它对用户定义参数半径E及密度阈值MinPts很敏感，参数取值细微的不同都有可能
#导致差别很大的结果，而且参数的选取无规律可循，只能不断尝试靠经验确定。

#####7.1.5 期望最大化聚类#####
#期望最大化算法（简称EM算法）的思路十分巧妙，在使用算法进行聚类时，它将数据集看
#作一个含有隐性变量的概率估计模型，并以实现模型最优化，即获取与数据本身性质相契
#合的聚类方式为目的，通过“反复估计”模型参数找出最优解。同时给出相应的最优类别数K。

#####7.2 R中的实现#####
#K-均值(K-Means)       stats    kmean()
#K-中心点(K-Medoids)   cluster  pam()
#系谱聚类(HC)          stats    hclust(),cutree(),rect.hclust()
#密度聚类(DBSCAN)      fpc      dbscan()
#期望最大化聚类(EM)    mclust   Mclust(),mclustBIC(),mclust2Dplot(),densityMclust()

#####7.2.2 核心函数#####
#1. kmeans函数
#kmeans(x, centers, iter.max=10, nstart=1, algorithm=c("Hartigan-Wong", "Lloyd", 
#"For-gy", "MacQueen"))
#其中x为进行聚类分析的数据集；centers为预设类别数k；iter.max为迭代的最大值，且默
#认值为10；nstart为选择随机起始中心点的次数，默认取1；而参数algorithm提供了4种算
#法选择，默认为Hartigan-Wong算法。

#2. pam函数
#pam(x, k, diss=inherits(x, "dist"), metric="euclidean", medoids=NULL, stand=FALSE,
#cluster.only=FALSE, do.swap=TRUE, keep.diss=!diss&&!cluster.only&&n<100, keep.data=
#!diss&&!cluster.only, pamonce=FALSE, trace.lev=0)

#其中x与k分别表示待处理数据及类别数；metric参数用于选择样本点间距离测算的方式，可供
#选择的有euclidean和manhattan;medoids默认取NULL,即由软件选择初始样本中心点样本，也可
#以设定一个k为向量来指定初始点；stand用于选择对数据进行聚类前是否需要进行标准化；
#cluster.only用于选择是否获取各样本所归属的类别这一项聚类结果，若选择TRUE,则聚类过程
#效率更高；keep.data选择是否在聚类

最低0.47元/天解锁文章

北有鸣鹿

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
7.聚类分析

#####7 聚类分析##########7.1.1 K-均值聚类######它是一种快速聚类方法，但对于异常值或极值敏感，稳定性差，因此适合处理分布集#中的大样本数据集。#思路：以随机选取的k（预设类别）个数作为起始中心店，将其余样本归入相似度最高#中心点所在的簇，再确立当前簇中样本坐标的均值为新的中心点，依次循环迭代下去，#直至所有样本所属类别不再变动。#####7.1.2...
复制链接

扫一扫

专栏目录