python聚类分析如何确定分类个数_R语言做聚类分析Kmeans时确定类的个数

这篇博客介绍了确定聚类分析中类别的不同方法,包括通过K平均算法(K-means)的误差平方和图,K中心聚类算法(K-mediods)的最优平均轮廓宽度,Calinski准则,基于模型假设的mclust包,以及AP算法。各种方法均指向4个或5个为合适的类别数量。
摘要由CSDN通过智能技术生成

K平均算法(k-means)

在下面的误差平方和图中,拐点(bend or

elbow)的位置对应的x轴即k-means聚类给出的合适的类的个数。

> n =

100

>

g=6

>

set.seed(g)

> d

rnorm(n/g, runif(1)*i^2))), y = unlist(lapply(1:g, function(i)

rnorm(n/g, runif(1)*i^2))))

>

plot(d)

>

> mydata

>

> wss

(nrow(mydata)-1)*sum(apply(mydata,2,var))

> for (i in

2:15)

wss[i]

sum(kmeans(mydata,centers=i)$withinss)

>

###这里的wss(within-cluster sum of squares)是组内平方和

> plot(1:15,

wss, type="b", xlab="Number of Clusters",ylab="Within groups sum of

squares")

>

由上图可以看出,该方法给出合理的类别个数是4个。

方法二:

K中心聚类算法(K-mediods)

使用fpc包里的pamk函数来估计类的个数:

>

library(cluster)

Warning

message:

程辑包‘cluster’是用R版本3.2.3

来建造的

>

library(fpc)

> pamk.best

>

cat("number of clusters estimated by optimum average silhouette

width:", pamk.best$nc, "\n")

number of

clusters estimated by optimum average silhouette width:

4

>

plot(pam(d, pamk.best$nc))

sihouette值是用来表示某一个对象和它所属类的凝合力强度以及和其他类分离强度的,值范围为-1到1,值越大表示该对象越匹配所属类以及和邻近类有多不匹配。

所以从上图sihouette

plot中可以看出,该方法给出的合理类的个数为4个。

方法三:

基于Calinsky

Criterion

>

require(vegan)

载入需要的程辑包:vegan

载入需要的程辑包:permute

载入需要的程辑包:lattice

This is vegan

2.4-0

Warning

messages:

1:

程辑包‘vegan’是用R版本3.2.5 来建造的

2:

程辑包‘permute’是用R版本3.2.5 来建造的

3:

程辑包‘lattice’是用R版本3.2.3 来建造的

> fit

TRUE, scale = TRUE), 1, 10, iter =

1000)

> plot(fit,

sortg = TRUE, grpmts.plot = TRUE)

>

calinski.best

as.numeric(which.max(fit$results[2,]))

>

cat("Calinski criterion optimal number of clusters:",

calinski.best, "\n")

Calinski

criterion optimal number of clusters:

5

>

由上图我们可以看到,根据Calinsky标准,得到类的个数是5个。

方法四:

基于模型假设的聚类,利用的是mclust包:

>

library(mclust)

__ ___________ __ _____________

/ |/ / ____/

/ / / / /

___/_ __/

/ /|_/ /

/ /

/ / / / /\__ \ /

/

/

/ / / /___/ /___/ /_/ /___/ //

/

/_/ /_/\____/_____/\____//____//_/ version 5.1

Type

'citation("mclust")' for citing this R package in

publications.

Warning

message:

程辑包‘mclust’是用R版本3.2.4

来建造的

> d_clust

> m.best

>

cat("model-based optimal number of clusters:", m.best,

"\n")

model-based

optimal number of clusters: 4

>

plot(d_clust)

Model-based

clustering plots:

1:

BIC

2:

classification

3:

uncertainty

4:

density

方法五:

基于AP算法的聚类

>

library(apcluster)

载入程辑包:‘apcluster’

The following

object is masked from ‘package:stats’:

heatmap

Warning

message:

程辑包‘apcluster’是用R版本3.2.5

来建造的

> d.apclus

d)

>

cat("affinity propogation optimal number of clusters:",

length(d.apclus@clusters), "\n")

affinity

propogation optimal number of clusters:

4

> #4

得出的分类个数

>

heatmap(d.apclus)

>

plot(d.apclus, d)

>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值