python 分组箱线图_R语言统计与绘图:绘制箱线图

a5f9fb82a790198022ed6c8bd4fd2913.png

箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量的分布。

箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。

e4e44e5dae3ad9c9db8b9e57e8fcbdde.png
含手工标注的箱线图

箱线图可以直观地看出数据集的以下重要性值:

  • 中心位置:中位数所在的位置就是数据集的中心;
  • 散布程度:箱线图分为多个区间,区间较短时,表示落在该区间的点较集中;
  • 对称性:如果中位数位于箱子的中间位置,那么数据分布较为对称;如果极值离中位数的距离较大,那么表示数据分布倾斜。

今天来学习下R语言怎么绘制箱型图。


目  录

  • 1. 加载数据集

  • 2. 绘制带状图

  • 3. 绘制箱型图

  • 4. 输出箱线图统计信息

  • 5. 并列箱线图

    • 5.1 单个分组变量

    • 5.2 多个分组变量

  • 6. ggboxplot()函数绘制箱线图

  • 7. boxplot()函数

  • 8. ggboxplot()函数


1. 加载数据集

本推文使用的nlme包中的MathAchieve数据集。

install.packages("nlme") # 安装包
library(nlme) # 加载包
data(MathAchieve) # 加载数据集
View(MathAchieve) # 预览数据集
9164eabb34d3f3bd9bc2caaaa18c0bd4.png

数据集中的变量解释:
Minority:因子,表示学生是否为少数种族群体;
Sex:因子,表示性别;
SES:数字向量,表示社会经济地位;
MathAch:数字向量,表示数学成就分数。

从上面的数据集中,我们知道数据集包含7000余行,数据集很大,我们如果直接使用带状图查看数据集信息,可能很困难。

2. 绘制带状图

par(mfrow=c(2,1)) 
stripchart(MathAchieve$MathAch, method = "jitter",
           main = "数学成绩pch19", xlab = "分数", pch = "19")
stripchart(MathAchieve$MathAch, method = "jitter",
           main = "数学成绩pch.", xlab = "分数", pch = ".")
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值