7.聚类分析

#####7 聚类分析#####

#####7.1.1 K-均值聚类#####
#它是一种快速聚类方法,但对于异常值或极值敏感,稳定性差,因此适合处理分布集
#中的大样本数据集。

#思路:以随机选取的k(预设类别)个数作为起始中心店,将其余样本归入相似度最高
#中心点所在的簇,再确立当前簇中样本坐标的均值为新的中心点,依次循环迭代下去,
#直至所有样本所属类别不再变动。

#####7.1.2 K-中心点聚类#####
#K-中心点算法与K-均值算法在原理上非常接近,它是针对于K-均值算法易受极值影响
#这一缺点改进算法。在原理上的差异在于选择各类别中心点时不取样本均值点,而在
#类别内选取到其余样本距离之和最小的样本为中心。

#####7.1.3 系谱聚类#####
#其聚类的过程可以通过类似于系谱图的形式呈现出来。相对于K-均值算法与K-中心点
#算法,系谱图的突出特点在于,不需事先设定类别数k,这是因为它每次迭代过程仅
#将距离近的两个样本/簇聚为一类,其运作过程将自然得到k=1至k=n(n为待分类样本
#总数)个类别的聚类结果。

#####7.1.4 密度聚类#####
#DBSCAN算法是基于密度的聚类方法中最常用的代表之一,另外还有OPTICS算法,
#DENCLUE算法。

#优势:弥补了基于距离的聚类算法的只能发现“类圆形”的缺陷,该算法由于是基于“密度”
#来聚类的,可以在具有噪声的空间数据库中发现任意形状的簇。

#DBSCAN算法:将“簇”看作是数据空间中被低密度区域分隔开的“稠密区域”,即密度相连
#样本点的最大集合。

#缺点:它对用户定义参数半径E及密度阈值MinPts很敏感,参数取值细微的不同都有可能
#导致差别很大的结果,而且参数的选取无规律可循,只能不断尝试靠经验确定。

#####7.1.5 期望最大化聚类#####
#期望最大化算法(简称EM算法)的思路十分巧妙,在使用算法进行聚类时,它将数据集看
#作一个含有隐性变量的概率估计模型,并以实现模型最优化,即获取与数据本身性质相契
#合的聚类方式为目的,通过“反复估计”模型参数找出最优解。同时给出相应的最优类别数K。

#####7.2 R中的实现#####
#K-均值(K-Means)       stats    kmean()
#K-中心点(K-Medoids)   cluster  pam()
#系谱聚类(HC)          stats    hclust(),cutree(),rect.hclust()
#密度聚类(DBSCAN)      fpc      dbscan()
#期望最大化聚类(EM)    mclust   Mclust(),mclustBIC(),mclust2Dplot(),densityMclust()

#####7.2.2 核心函数#####
#1. kmeans函数
#kmeans(x, centers, iter.max=10, nstart=1, algorithm=c("Hartigan-Wong", "Lloyd", 
#"For-gy", "MacQueen"))
#其中x为进行聚类分析的数据集;centers为预设类别数k;iter.max为迭代的最大值,且默
#认值为10;nstart为选择随机起始中心点的次数,默认取1;而参数algorithm提供了4种算
#法选择,默认为Hartigan-Wong算法。

#2. pam函数
#pam(x, k, diss=inherits(x, "dist"), metric="euclidean", medoids=NULL, stand=FALSE,
#cluster.only=FALSE, do.swap=TRUE, keep.diss=!diss&&!cluster.only&&n<100, keep.data=
#!diss&&!cluster.only, pamonce=FALSE, trace.lev=0)

#其中x与k分别表示待处理数据及类别数;metric参数用于选择样本点间距离测算的方式,可供
#选择的有euclidean和manhattan;medoids默认取NULL,即由软件选择初始样本中心点样本,也可
#以设定一个k为向量来指定初始点;stand用于选择对数据进行聚类前是否需要进行标准化;
#cluster.only用于选择是否获取各样本所归属的类别这一项聚类结果,若选择TRUE,则聚类过程
#效率更高;keep.data选择是否在聚类
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值