地区电信行业发展分析

一、实验任务

请根据表1给出的7个因素对我国14个地区的发展状况进行聚类分析。

  1. 请用六种类间距离进行系统聚类,并绘制聚类图
  2. 请对7个因素采用kmeans聚类法分析我国14个地区的发展状况进行分析
  3. 请利用多元线性回归模型对全国各省的各市的财政收入情况与各个影响因素进行综合分析

表1 我国14个地区的财政情况

因素1

因素2

因素3

因素4

因素5

因素6

因素7

北京

2504685

0.76

1.38

315.95

360697.5

224645.3

850957

天津

336312.9

0.77

1.56

24.57

51261.21

28622.46

118923.3

河北

459623.2

1.03

1.39

67.76

90426.76

39189.25

140527.6

山西

2407800

2.54

5.38

255.09

260939.5

244179.3

1003601

内蒙

872521

0.62

1.15

95.03

99551.34

95465.15

349089.6

辽宁

146567.8

1.28

1.23

13.97

19184.27

9921.97

39182.47

吉林

105169.6

1.46

1.51

6.33

11927.68

7523.68

28804.3

黑龙江

163800.8

2.74

2.45

10.84

28824.38

10664.08

40965

上海

407695.3

2.64

3.91

47.32

39881.16

40954.59

160412.8

江苏

124567.6

1.11

1.02

6.14

12402.01

9817.33

36103.81

浙江

1521224

1.29

3.05

57.28

132547.8

179611.4

710268.9

安徽

463105.7

0.64

1.17

71.38

49292.22

46733.02

178235.4

福建

391794.7

0.94

1.31

19.74

31922.63

31839.73

120902.5

江西

2504685

0.76

1.38

315.95

360697.5

224645.3

850957

二、实验步骤

一、用六种类间距离进行系统聚类,并绘制聚类图

1.读取数据

library(openxlsx)

read.xlsx("C:\\Users\\Dell\\Desktop\\多元统计和r语言\\shiyanwu.xlsx")

X=read.xlsx("C:\\Users\\Dell\\Desktop\\多元统计和r语言\\shiyanwu.xlsx",rowNames = T)

2.最短距离法

#将因素进行分类

colnames(X)=c("x1","x2","x3","x4","x5","x6","x7")

D=dist(X,method="euclidean",p=2)

#欧式距离,最短距离法

a=hclust(D,method="single")

plot(a)

3.最长距离法

#欧氏距离,最长距离法

b=hclust(D,method = "complete")

plot(b)

4.ward法

#欧氏距离,ward法

c=hclust(D,method="ward.D2")

plot(c)

5.中间距离法

#中间距离法

d=hclust(D,method="median")

plot(d)

6.类平均法

#类平均法

e=hclust(D,method="average")

plot(e)

7.重心法

#重心法

f=hclust(D,method="centroid")

plot(f)

  • 请对7个因素采用kmeans聚类法分析我国14个地区的发展状况进行分析

1.加载包

library(factoextra)

library(dplyr)

library(cluster)

library(pacman)

library(NbClust)

names(X)

2.标准化数据

X.scaled<-scale(X[2:7])

3.通过Nbclust来确定k

L=NbClust(X.scaled,distance="euclidean",method="average")

table(L$Best.n[1,])

分析:k值选择2

win.graph(width=6, height=5,pointsize=9)#因为figure margins too large报错

barplot(table(L$Best.n[1,]),xlab = "No. of cluster")

4.以聚类数为2进行分析

set.seed(666)

kmeans1<-kmeans(X.scaled,centers=2,nstart = 25)

fviz_cluster(object=kmeans1,data=X[2:7],

             ellipse.type = "euclid",star.plot=T,repel=T,

             geom = ("point"),palette='jco',main="",

             ggtheme=theme_minimal())+

theme(axis.title = element_blank())

5.归类

summary(kmeans1)

kmeans$cluster

kmeans$size

6.整理数据

z=data.frame(X[2:7],kmeans1$cluster)

z=arrange(z,kmeans1.cluster)

7.对每组数据进行平均值统计

by_fenzu=group_by(z,kmeans1.cluster)

summarize(by_fenzu,x1=mean(x1),x2=mean(x2),

          x3=mean(x3),x4=mean(x4),x5=mean(x5),x6=mean(x6))

分析:在第一类城市中,因素五表现突出,第二类城市因素2,3,5表现突出

8.对数据进行分组,得出每组因素的密度分布情况

Data1=z[which(z$kmeans1.cluster==1),]

Data2=z[which(z$kmeans1.cluster==2),]

9.绘制分布曲线

#1

par(mfrow=c(1,2))

plot(density(Data1[,1]),main="1.1")

plot(density(Data2[,1]),main="1.2")

#2

par(mfrow=c(1,2))

plot(density(Data1[,2]),main="2.1")

plot(density(Data2[,2]),main="2.2")

#3

par(mfrow=c(1,2))

plot(density(Data1[,3]),main="3.1")

plot(density(Data2[,3]),main="3.2")

#4

par(mfrow=c(1,2))

plot(density(Data1[,4]),main="4.1")

plot(density(Data2[,4]),main="4.2")

#5

par(mfrow=c(1,2))

plot(density(Data1[,5]),main="5.1")

plot(density(Data2[,5]),main="5.2")

#6

par(mfrow=c(1,2))

plot(density(Data1[,6]),main="6.1")

plot(density(Data2[,6]),main="6.2")

#7

par(mfrow=c(1,2))

plot(density(Data1[,7]),main="7.1")

plot(density(Data2[,7]),main="7.2")

三、请利用多元线性回归模型对全国各省的各市的财政收入情况与各个影响因素进行综合分析

library(mvstats)

#多元线性回归

(fm=lm(y~x1+x2+x3+x4+x5+x6+x7,data=X))

coef.sd(fm)

lm(formula = y~x1+x2+x3+x4+x5+x6+x7, data = X)

三、实验总结   

通过本次实验,我学会了用六种类间距离进行系统聚类,并绘制了聚类图,并且对7个因素采用了kmeans聚类法分析了我国14个地区的发展状况,利用多元线性回归模型对全国各省的各市的财政收入情况与各个影响因素进行了综合分析。

四、心得体会

此次实验,还是有些许不足。不如mvstats的包无法安装,并且产生了一些不可以解决的问题,但是不影响实验结果。另外,还是很有收获的,学会了多元线性回归分析以及类间距的应用等。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值