谱系图是层次聚类分析中一种常见形式,聚类分析是指在n维空间中将点分配到类的一种方法。本文对R语言中绘制谱系图的绘图函数及相关package进行汇总,展示不同形式的谱系图绘制过程。
1.数据准备
以国家统计局[1]官方网站上关于2020年我国31个省份人均GDP【单位:元】及年末常住人口【单位:万人】数据(未包含港澳台数据)为例,通过聚类分析构建谱系图。数据如下图所示,可在后台回复【20220114】获取。
2.数据处理
前期数据处理主要包括读入数据、为数据指定行名、选择待分析的数据列、对数据进行标准化等。
setwd("C:\\Users\\Acer\\Desktop") #设置工作路径
data <- read.csv("hclust.csv") #读入数据
head(data) #查看数据前几行
# province Per.GDP POP
#1 北京 164889 2189
#2 天津 101614 1387
#3 河北 48564 7464
str(data) #查看数据结构
#'data.frame': 31 obs. of 3 vari