箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量的分布。
箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。
箱线图可以直观地看出数据集的以下重要性值:
- 中心位置:中位数所在的位置就是数据集的中心;
- 散布程度:箱线图分为多个区间,区间较短时,表示落在该区间的点较集中;
- 对称性:如果中位数位于箱子的中间位置,那么数据分布较为对称;如果极值离中位数的距离较大,那么表示数据分布倾斜。
今天来学习下R语言怎么绘制箱型图。
目 录
1. 加载数据集
2. 绘制带状图
3. 绘制箱型图
4. 输出箱线图统计信息
5. 并列箱线图
5.1 单个分组变量
5.2 多个分组变量
6. ggboxplot()函数绘制箱线图
7. boxplot()函数
8. ggboxplot()函数
1. 加载数据集
本推文使用的nlme包中的MathAchieve数据集。
install.packages("nlme") # 安装包
library(nlme) # 加载包
data(MathAchieve) # 加载数据集
View(MathAchieve) # 预览数据集
数据集中的变量解释:
Minority:因子,表示学生是否为少数种族群体;
Sex:因子,表示性别;
SES:数字向量,表示社会经济地位;
MathAch:数字向量,表示数学成就分数。
从上面的数据集中,我们知道数据集包含7000余行,数据集很大,我们如果直接使用带状图查看数据集信息,可能很困难。
2. 绘制带状图
par(mfrow=c(2,1))
stripchart(MathAchieve$MathAch, method = "jitter",
main = "数学成绩pch19", xlab = "分数", pch = "19")
stripchart(MathAchieve$MathAch, method = "jitter",
main = "数学成绩pch.", xlab = "分数", pch = ".")