ggplot2箱式图两两比较_个人向ggplot2箱线图总结

主要从如何看图、用图与作图三个方面来对箱线图进行理解和总结。

1、看图

箱线图概述图1

箱线图概述图2

如图所示,箱线图是将一组数据按照大小顺序排列后进行绘制的,包含6个数据节点,分别表示出数据的上边缘、上四分位数点Q3(数据从小到大排列后处在75%位置上的数据)、中位数、下四分位数Q1(数据从小到大排列后处在25%位置上的数据)、下边缘和异常值。由此,箱线图很形象地分为中心、延伸以及分布状态的全部范围。

异常值的筛选是根据数值与外限和内限的位置差异来进行的。内限即异常值截断点为Q3+1.5IQR和Q1-1.5IQR,外限为Q3+3IQR和Q1-3IQR。其中IQR=Q3-Q1,为四分位距。处在内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和异常值,在外限以外的为极端异常值。软件绘图中一般不会标出内限和外限。

2、用图

2、1 可以用于反映数据的形状

除须以外,箱子包含了50%的数据,因此,箱子的宽度在一定程度上反映了数据的波动程度,箱子越扁说明数据越集中,须越短也说明数据越集中。

2、2 可以用于反映数据的偏态

中位数如果偏离上下四分位数的中心位置,分布的偏态性就越强。当中位数靠近上四分位点时,说明下四分位点与中位数之间的数据变化幅度大,中位数与上四分位点之间的数据变化幅度小;当中位数靠近下四分位点时,则反之。

2、3 可以用于表示数据的变化趋势或者进行数据之间比较

将多个箱线并行排列,可以看出数据整体的变化趋势。如下图中可以很明显的看出60天向100天过渡的过程中,长度的总体态势是逐渐增长的,但是113天却往下掉了。

boxplot of length.jpeg

同时也将几批数据的箱线图并行排列后,这几批数据的中位数、尾长、异常值和分布区间等信息一目了然,可以进行粗略的比较,如下图所示。

并行排列几批数据后绘制成的箱线图

2、4 可以用于体现与筛选数据的异常值

异常值的存在会对数据的计算分析过程产生影响,因此如果能体现与筛选异常值,分析其产生的原因,就可以发现问题并进而进行改进。识别异常值的经典方法中3σ法则和z分数法都是以数据服从正态分布为前提进行筛选的,而箱线图的绘制是依靠实际数据,不需事先假定数据服从的分布形式,同时因为四分位数具有一定的耐抗性,所以利用箱线图识别异常值的结果会比较客观。

3、作图

箱线图的数据格式通常为两列,一列为类型变量,表示所属类别;一类为连续型数字变量,表示数值。通过这样的两列绘制出来的箱线图称为并列箱线图。而在某些情况中,需要绘制分组的箱线图进行比较,这样子就需要三个变量,即三列,包括两列类型变量和一列连续型的数字变量。

并列型箱线图

并列型箱线图的数据

分组型箱线图

分组型箱线图的数据

3、1 并列型箱线图作图

命令格式为

ggplot(表名,aes(x=表中列,y=表中列))+geom_boxplot(aes(fill=表中用于分类的列))

用fill分类完以后会自动填充颜色,当然fill=也可加具体

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值