聚类分析
1. 数据描述
为了对全国区域经济进行分析评价,今收集1998年16个反映国民经济发展的指标:
X1——人均GDP(元) X2——第三产业占GDP比重(%) X3——商品出口依存度(%)
X4——研究与开发经费占GDP比重(%) X5——工业化进程 X6——人均财政教育经费
X7——人口自然增长率(%) X8——城镇人口比重(%) X9——信息化综合指数(%)
X10——城镇居民恩格尔系数(%) X11——城镇人均房屋适用面积(平方米)
X12——平均每名医生服务人口(人) X13——“三废”处理治理达标率
X14——耕地垦殖指数(%) X15——城市人均公共绿地面积(平方米)
X16——污染治理项目投资占GDP比重(%)。
2. 调入数据,并对数据标准化。
操作步骤:
Case6=read.table("clipboard",header=T) #加载数据
3.系统聚类(类间距离为默认最长距离法)
3.1. 分2类进行系统聚类,画系统聚类图,添加分类框,查看分类结果。
操作步骤:
H=H.clust(Case6,"euclidean","complete",plot=T)#最长距离法
plot(H);rect.hclust(H,2) #添加分类框
cutree(H,2)
结果:
结果解释:
分2类
3.2.分3类进行系统聚类,画系统聚类图,添加分类框,查看分类结果。
操作步骤:
plot(H);rect.hclust(H,3) #添加分类框
cutree(H,3)
结果:
结果解释:
分3类
3.3.分4类进行系统聚类,画系统聚类图,添加分类框,查看分类结果。
操作步骤:
plot(H);rect.hclust(H,4) #添加分类框
cutree(H,4)
结果:
结果解释:
分4类
4. kmeans聚类
4.1. 分2类进行kmeans聚类,查看分类结果,画散点图,并标出各类的聚类中心。
操作步骤:
cl=kmeans(Case6,2)#kmeans聚类
cl$cluster
plot(Case6,pch=cl$cluster)
结果:
结果解释:
分2类进行kmeans聚类
4.2.分3类进行kmeans聚类,查看分类结果,画散点图,并标出各类的聚类中心。
操作步骤:
cl=kmeans(Case6,3)#kmeans聚类
cl$cluster
plot(Case6,pch=cl$cluster)
结果:
结果解释:
分3类进行kmeans聚类
4.3.分4类进行kmeans聚类,查看分类结果,画散点图,并标出各类的聚类中心。
操作步骤:
cl=kmeans(Case6,4)#kmeans聚类
cl$cluster
plot(Case6,pch=cl$cluster)
结果:
结果解释:
分4类进行kmeans聚类