【手把手陪你学R】用ggplot2包画箱线图

箱线图是什么?

箱线图(boxplot),又称箱形图或盒式图,不仅可以展示不同类别数据的平均水平差异,还能展示数据间的极值、离散程度、异常值等信息

  • 箱子的中间线,是数据的中位数,反映了数据的平均水平
  • 箱子的上下限,分别是数据的上四分位数和下四分位数,箱子包含了50%的数据,其高度在一定程度上反映了数据的离散程度
  • 箱子的上方和下方又各有一条线,分别是数据的最大和最小值,而外溢的点则可理解成为异常值

第一步 安装并载入ggplot2包

install.packages("ggplot2")   #安装ggplot2包
library(ggplot2)   #载入ggplot2包

第二步 读取Excel文件

本篇使用的数据集是规模以上服务业企业的经济效益综合指数(将标准化后的贡献率、负债率、周转率、利润率按均等赋权后计算得到,贡献率、周转率、利润率为正向指标,负债率为适中指标),并将企业按国民经济行业门类进行分类

library(readxl)   #载入readxl包,首次使用需先安装
data <- read_xlsx("C:/Users/dell-pc/Desktop/data.xlsx", sheet = "data")    #读取Excel文件,若有多张sheet需指定sheet名
head(data,10)   #输出数据集前10行

第三步 绘制箱线图

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+   #指定数据集,设置坐标轴名称、类别颜色
  geom_boxplot()   #绘制箱线图
pic   #输出箱线图 

(选做)第四步 美化箱线图

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+
  geom_boxplot(size = 0.8, width = 0.8, alpha = 0)+   #设置箱线尺寸、箱形宽度、异常点透明度
  geom_jitter(position = position_jitter(0.4), alpha = 0.2, size=1.5)+   #设置数据点的分散程度、透明度、尺寸
  labs(title = "服务业行业门类经济效益综合指数")   #添加图形标题
pic

(选做)第五步 其他输出形式1

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+
  geom_boxplot(size = 0.8, width = 0.8, alpha = 0)+
  geom_jitter(position = position_jitter(0.4), alpha = 0.2, size=1.5)+
  labs(title = "服务业行业门类经济效益综合指数")
pic+theme_classic()

(选做)第六步 其他输出形式2

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数))+
  geom_boxplot(aes(fill = 行业门类), size = 0.8, width = 0.8,)+
  labs(title = "服务业行业门类经济效益综合指数")
pic

★微信搜一搜“TriHub数据社”,欢迎关注获得入社福利

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值