一、k-means 8点2分类简单例题
#k-means/k均值
#n=8,k=2
rm(list=ls())
library(ggplot2)
setwd("D:/AUniversity/GameDesign/R/Project/聚类")
#导入数据
x<-c(1,2,1,2,4,5,4,5)
y<-c(1,1,2,2,3,3,4,4)
data<-data.frame(x,y)
#计算距离
distance<-function(x1,y1,x2,y2){
return(abs(x1-x2)+abs(y1-y2))
}
#随机选择的两个对象,如序号1和序号3当作初始点
#中心点即为x,y
cen1=matrix(c(data[1,1],data[1,2]))
cen2=matrix(c(data[3,1],data[3,2]))
#两个簇
c1=c(1);c2=c(3)
#先将两个簇分好
for(i in 1:length(x)){
dis1=distance(x[i],y[i],cen1[1],cen1[2])
dis2=distance(x[i],y[i],cen2[1],cen2[2])
if(dis1==0||dis2==0)
next
else{
if(dis1<=dis2)
c1=c(c1,i)
else
c2=c(c2,i)
}
}
#修改不同簇的点集
repeat{
new_c1=c1
#重新计算cen的x、y值
cen1[1]=mean(x[new_c1])
cen1[2]=mean(y[new_c1])
cen2[1]=mean(x[c2])
cen2[2]=mean(y[c2])
#分两个簇判断
temp_length=length(c1)
dex=0
for(i in 1:temp_length){
dex=dex+1
#算距离
dis1=distance(x[c1[dex]],y[c1[dex]],cen1[1],cen1[2])
dis2=distance(x[c1[dex]],y[c1[dex]],cen2[1],cen2[2])
#修改内部点
if(dis1>dis2){
c2=c(c2,new_c1[dex])
new_c1=new_c1[-dex]
dex=dex-1
}
}
temp_length=length(c2)
dex=0
for(i in 1:temp_length){
dex=dex+1
#算距离
dis1=distance(x[c2[dex]],y[c2[dex]],cen1[1],cen1[2])
dis2=distance(x[c2[dex]],y[c2[dex]],cen2[1],cen2[2])
#修改内部点
if(dis2>dis1){
new_c1=c(new_c1,c2[dex])
c2=c2[-dex]
dex=dex-1
}
}
#排序
new_c1=sort(new_c1)
c2=sort(c2)
#修改前和修改后相等则结束
if(identical(c1, new_c1)){
break
}
else c1=new_c1
}
#显示
cat("一类点序号:",c1,";中心点:",t(cen1))
cat("二类点序号:",c2,";中心点:",t(cen2))
#作图
#区分两类点,整合
for(i in 1:length(x)){
for(j in 1:length(c1)){
if(i==c1[j]){
data[i,3]="c1"
break
}
}
}
for(i in 1:length(x)){
for(j in 1:length(c2)){
if(i==c2[j]){
data[i,3]="c2"
break
}
}
}
names(data)=c("x","y","cu")
#show(data)
ggplot(data,aes(x=x,y=y,colour=cu,shape=cu))+geom_point()
调用ggplot,调整不同点集。不同颜色和图案画出来
二、调用R语言自带kmeans()对给定数据集表示的文档进行聚类。
给定数据集:
- 数据代表的是文本信息。
- 第一行代表词语,由于保密原因,词语已经被转意。第一列代表了文本的编号。
- 红框中的数字为对应词的词频。
- 共113个样本,用K-Means算法将样本分为8类。
rm(list=ls())
setwd("D:/AUniversity/GameDesign/R/Project/聚类")
data = read.table("data_cluster.txt")
#调用k—means,分为8类
km <- kmeans(data, 8)
#共多少封
lie=(1:dim(data)[1])
#添加序号列
data$lie=lie
#显示第几封被分为哪一类
ggplot(data,aes(x=data$lie,y=km$cluster,colour=km$cluster))+geom_point()
#dev.off()