多元统计分析及R语言建模(第五版)——第7章

7.1下面给出5 个元素两两之间的距离,利用最短距离法、最长距离法和类平均法做出5个元素的谱系聚类,画谱系图并做出比较。
 
x1=c(0,4,6,1,6)
x2=c(4,0,9,7,3)
x3=c(6,9,0,10,5)
x4=c(1,7,10,0,8)
x5=c(6,3,5,8,0)
x=rbind(x1,x2,x3,x4,x5)
y=as.dist(x)
y
hc=hclust(y,"single")#最短距离法
hc
plot(hc)
plot(hc);rect.hclust(hc,2)#加2类框
cutree(hc,2)#分2类
plot(hc);rect.hclust(hc,3)#加3类框
cutree(hc,3)#分3类

hc1=hclust(y,"complete")#最长距离法
plot(hc1);rect.hclust(hc1,2)#加2类框
cutree(hc1,2)#分2类
plot(hc1);rect.hclust(hc1,3)#加3类框
cutree(hc1,3)#分3类

hc2=hclust(y,"average")#类平均法
plot(hc2)
plot(hc2);rect.hclust(hc2,2)#加2类框
cutree(hc2,2)#分2类
plot(hc2);rect.hclust(hc2,3)#加3类框
cutree(hc2,3)#分3类
7.2为了比较全国31个省、市、自治区1996年和2007年(数据见本章例 7.2)城镇居民生法消费的分布规律,根据调查资料做区域消费类型划分。并将 1996年和2007年数据进行对比分析。今收集了8个反映城镇居民生活消费结构的指标(1996年数据见表):


x1——人均食品支出(元/人)
x2——人均衣着商品支出(元/人)
x3——人均家庭设备用品及服务支出(元/人)
x4——人均医疗保健支出(元/人)
x5——人均交通和通信支出(元/人)
x6——人均娱乐教育文化服务支出(元/人)
x7——人均居住支出(元/人)
x8——人均杂项商品和服务支出(元/人)。

试对该数据进行聚类分析。

地区X1X2X3X4X5X6X7X8
北京2671.52512.35436.31217.82257.02699.15286.99313.68
天津2398.47349.24372.27141247.15435.68320.88191.89
河北1533.42302.35281.69155.08185.82336.37260.63118.19
山西1400.26347.83202.2145.89144.96316.73163.29132.52
内蒙古1249.58254.29192.44134.5133.3274.78186.06121.67
辽宁1749.76365.36167.58135.6154.07303.62244.31128.44
吉林1438.94329.63161.49137.96137.35243.28253.19121.92
黑龙江1437.24359.83162.47173.68137.33246.69258.44108.75
上海3415.5363.61637.28147.78467.85779.28392.62333.19
江苏2070.29280.72364.7294.4233.48337.28306.11165.94
浙江2704.43412.57650.11246.32307.82538404.5250.71
安徽1938.62297.49232.7775.32196.13302.37256.41127.7
福建2610.66308.71249.7678.17190.16245.33309.45141.89
江西1579.21174.97196.5671.94119.68246.63276.97138.58
山东1645.74356.25354.42147.29183.01377.95231.69173.34
河南1439.32304.06215.52125.97131.74211.41281.61115.25
湖北1731.43350.53279.58113.16175.41436.9287.13142.25
湖南1986.57313.03334.06149.81210.63460.88267.79181.45
广东3186.77343.38531.97240.97421.82746.68751.2395.84
广西2188.14246.9344.15106.33252.3530.48376.06162.87
海南2237.13186.07222.21125.95140.55385.35280.17180.07
四川1925.3329.08293.22135.29145.34380.37272.48143.53
贵州1918.76247.69304.993.04154.85287.6257.57146.83
云南1971.54346.19284.49180.51208.3364.15294.03193.19
西藏2592.26618.38182.47151.91107.68248.64178.35222.2
陕西1461.62242.03318.43144.75167.61294.25264.29133.82
甘肃1443.01214.28188.2130.42123.19249.55163.5132.89
青海1651.16275.3195.27190.13168.08244.39125.23148.95
宁夏1377.25301.18214.49171.77209.98262.57132.5143.87
新疆1531.88352.17254.04155.85191.48323.24184.93215.31
library(openxlsx)
d7_22=read.xlsx("E:/多元统计分析及R语言建模/mvexer5.xlsx",sheet ="E7.2",rowNames = T)
plot(d7_22,gap=0)

D=dist(d7_22);D#计算距离矩阵
hc=hclust(D,"single")#最短距离法
names(hc)
data.frame(hc$merge,hc$height)
plot(hc)

plot(hclust(D,"single"))#最短距离法
plot(hclust(D,"complete"))#最长距离法
plot(hclust(D,"median"))#中间距离法
plot(hclust(D,"average"))#类平均法
plot(hclust(D,"centroid"))#重心法
plot(hclust(D,"ward.D"))#Ward.D法
plot(hclust(D,"ward.D2"))#ward.D2法
#综上,用类平均法较好,聚成4类
H=hclust(D,"average");H
plot(H);rect.hclust(H,4)#加4类框
cutree(H,4)#分4类

  • 29
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值