x<-read_excel("F:/桌面/classR/第一次实验课_for student/原始数据表.xls")
x=data.frame(x)
rownames(x)=x[,1] # 第一列为行名
x=x[,-1]
#(1)计算相关系数矩阵,并对相关系数低于0.2的进行显著性检验。
cor(x)
cor.test(x[,1],x[,6])
cor.test(x[,3],x[,6])
#(2)计算偏相关系数,并对偏相关系数低于0.2的进行显著性检验。
library(ppcor)
pcor(x)
#(3)对各个指标进行正态性检验。(Q-Q图、正态性W检验)
qqnorm(x[,1])
qqline(x[,1])
qqnorm(x[,2])
qqline(x[,2])
qqnorm(x[,3])
qqline(x[,3])
qqnorm(x[,4])
qqline(x[,4])
qqnorm(x[,5])
qqline(x[,5])
qqnorm(x[,6])
qqline(x[,6])
shapiro.test(x[,1])
shapiro.test(x[,2])
shapiro.test(x[,3])
shapiro.test(x[,4])
shapiro.test(x[,5])
shapiro.test(x[,6])
#(4)对我国各地区经济发展状况进行系统聚类(选择一种系统聚类方法即可),利用聚合系数图说明类别数的合理性。
xs=scale(x) # 标准化
d=dist(xs,method="euclidean") # 计算样本间的距离
hc=hclust(d,method = "complete") # 系统聚类
plot(hc,hang=-1) # 制作谱系图
plot(hc$height[30:1])
plot(hc$height[30:1],type="o") # 制作聚合系数图并判定类别数
plot(hc,hang=-1)
nhc1=rect.hclust(hc,k=3) # 聚类数目为3的树状谱系图
print(nhc1) # 分类
nhc=cutree(hc,k=3) # 分类的另一种显示方法
nhc
sort(nhc)
colMeans(xs[nhc==1,]) # 第一类各个变量的均值
aggregate(xs,by=list(nhc),mean) #三类各个变量的均值
#(5)对我国各地区经济发展状况进行K-均值聚类,利用总类内离差平方和图说明类别数的合理性,并根据每类的重心说明各类特征。
library(factoextra)
fviz_nbclust(scale(x),kmeans,method='wss')
km=kmeans(scale(x),4)
km
fviz_cluster(km,scale(x))
R大作业1
最新推荐文章于 2024-07-23 13:32:09 发布