箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量的分布。
箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。
![defe7093aa6e05b57b6b34713068d9f8.png](https://i-blog.csdnimg.cn/blog_migrate/0fdee4fdcc6d41b7f82a46f923e8c410.png)
箱线图可以直观地看出数据集的以下重要性值:
- 中心位置:中位数所在的位置就是数据集的中心;
- 散布程度:箱线图分为多个区间,区间较短时,表示落在该区间的点较集中;
- 对称性:如果中位数位于箱子的中间位置,那么数据分布较为对称;如果极值离中位数的距离较大,那么表示数据分布倾斜。
今天来学习下R语言怎么绘制箱型图。
目 录
1. 加载数据集
2. 绘制带状图
3. 绘制箱型图
4. 输出箱线图统计信息
5. 并列箱线图
5.1 单个分组变量
5.2 多个分组变量
6. ggboxplot()函数绘制箱线图
7. boxplot()函数
8. ggboxplot()函数
1. 加载数据集
本推文使用的nlme包中的MathAchieve数据集。
install.packages("nlme") # 安装包
library(nlme) # 加载包
data(MathAchieve) # 加载数据集
View(MathAchieve) # 预览数据集
![1d2dfe7c42f93dec045519ed6352878f.png](https://i-blog.csdnimg.cn/blog_migrate/aa014d96d6ac6206f44dd2cf3e29972c.png)
数据集中的变量解释:
Minority:因子,表示学生是否为少数种族群体;
Sex:因子,表示性别;
SES:数字向量,表示社会经济地位;
MathAch:数字向量,表示数学成就分数。
从上面的数据集中,我们知道数据集包含7000余行,数据集很大,我们如果直接使用带状图查看数据集信息,可能很困难。
2. 绘制带状图
par(mfrow=c(2,1))
stripchart(MathAchieve$MathAch, method = "jitter",
main = "数学成绩pch19", xlab = "分数", pch = "19")
stripchart(MathAchieve$MathAch, method = "jitter",
main = "数学成绩pch.", xlab = "分数", pch = ".")
![939fd65d909cad9855032338990fbeeb.png](https://i-blog.csdnimg.cn/blog_migrate/de6dd4e935322c8f0d3b9a27deb7e90e.png)
从上面的图形中,因为数据集变量观测对象太多,各点密集排布,我们很难判断分布的形状,分布的中心点等等。
3. 绘制箱型图
par(mfrow = c(1,2))
boxplot(MathAchieve$MathAch,
main = "数学分数", ylab &#