中累计直方图_试验研究中的利器强大的直方图和箱线图

    上次小编给大家介绍了跟误差线有关的几个概念以及相关的柱状图,散点图,和小提琴图(试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!)。这些图和线都属于“比较统计学”的范畴。今天给大家总结介绍另一大类:“描述统计学”,主要用到的是直方图和箱线图。


总论:

    直方图和箱线图是了解连续变量分布的最常用的图形工具。在这两种图中可以找到数据中的下列信息:中位数,分位数,上限,下限,总体数据的变异性和异常值等。另外,这两种图在数据比较方面(比较统计学)也可以发挥很大的作用。下图(Wang et al. 2018)就是一个DH群体中五种不同单倍型在结实小穗数方面的表现差异,虽然少了平均值和SD或SEM,但箱线图配合表示显著性差异的字母在此例中还是非常直观的。

440c99ad1a13116d074e0e52d384be6f.png

直方图:

    直方图想必大家非常熟悉了,尤其是在表示群体对某一表型的分布中应用的非常广泛。值得注意的是,在我们小麦研究中,大部分性状都是多基因控制,所以如果能对直方图做一个normal fitting,然后配上正态性检测,就显得我们的图更加高大上了。即使是单基因控制的抗病性状,我们也可以根据明显不符合正态分布来支持目标性状是由单(或少数)基因控制。

cff0411f1349483059ab565e72564f00.png

ba8488b42dd32d0fac123bb3dcfc065a.png

箱线图:

    箱线图顾名思义最重要的两个成分就是箱和线。那么箱和线分别代表什么呢?我们首先来看中间这个箱子以及中间那条粗线:

    中间粗线代表中位数(如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置)。箱子大小代表的是四分位数间距(IQR),也称为中间50%间距,是统计离散度的度量,等于第75和第25百分位数之间的差异,或者说是在上下四分位数之间,即:IQR = Q3-Q1。(这一句话中出现的分位数,四分位数,和百分位数在英语中对应了三个单词quantile,quartile,和percentile,三者的联系和区别搞的小编头都大了,想了解更多的请看文末补充内容)。

    接下来谈一下小箱子伸出去的两根线,在“标准正态分布”的箱线图中,这两根线是等长的,代表的是1.5倍的IQR区间,所以箱线图的下限就是Q1-1.5IQR,上限是Q3+1.5IQR。

    最后是如果有超出上下限的值(大概是2.7个标准差之外),就被叫做异常值了。

    下图非常好的展现了一个箱线图中小箱子,上下限,以及异常值跟正态分布图中方差分布之间相互对应的关系。

b2b517056db07b1eeae76fc34d377272.png

箱线图的不同表达方式:

上面介绍了最标准的箱线图,但在实际应用过程中,由于数据的分布会稍微偏离或者不符合正态分布,这也就造成了箱线图的不同表达方式:主要是两根线的千变万化以及中位线在小箱子中位置的变化。

Outlier Box Plot (异常值类型,也是Excel 中的默认类型)

    这种类型多用于符合正态分布的数据中,借用这种图可以很快的鉴定出异常值。

    在这种类型中,一般上下限值等于我们上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在下图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。

9587bb2423ba303b3d0ce7064b1bfb88.png

分位数类型

    这种类型多用于不符合正态分布的数据,借用这种图可以快速的鉴定数据中各种分位数,最大值,最小值等等,从而快速知道某个数值在整个数据中所占的位置(百分位位置)。

    在这种类型中,“上下限值”就是数据中的最大值和最小值,然后中间几条小线代表自定义的分位数。如下图中左边的箱线图就是分位数类型,大家也可以比较这个图和直方图以及异常值箱线图的区别。另外,下面两个箱线图箱子里的菱形代表平均值以及上下95%的置信区间。此类型箱线图完美的结合了描述统计学和比较统计学两大功能,属于小编的最爱!

fa5f8c9417c68531e35d9df7e124fc47.png

 5774bd41cf83373c1d58c5045957563f.png


补充内容:

    以下两段话和一个英文的链接比较详细的讲述了quantile,quartile,和percentile之间的关系和区别。有兴趣的小伙伴可以看一下。按照小编的理解,以下这个在Stack Exchange上点赞量非高的解释其实是不对的:

32312827f6ef7c656842de5d949f70fe.png

https://stats.stackexchange.com/questions/156778/percentile-vs-quantile-vs-quartile

正确的用法:

The 2 quantiles = the 50th percentile

the 4 quantiles = the upper quartile = the 75th percentile

N Quantiles 的本意就是把正态分布分成N等份,所以我们可以说the 1000 quantiles,但percentile 只能是从 the 0th 到 the 100th。不过不管怎么说,我发现现在的统计学软件中的quantile都是以percentile形式来计算和展示的(比如正文最后一个图,以及下图中在R中计算quantile)。

958d985bcc149617d4dd9d500816c8a9.png

    “分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。”

    “百分位数统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。”

    Understanding Quantiles: Definitions and Uses

https://www.thoughtco.com/what-is-a-quantile-3126239

    欢迎大神在这个话题上继续补充。

b58a7341f845feab8cce5fc2bc2f1957.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLO高分设计资源源码,详情请查看资源内容使用说明 YOLO高分设计资源源码,详情请查看资源内容使用说明 YOLO高分设计资源源码,详情请查看资源内容使用说明 YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明YOLO高分设计资源源码,详情请查看资源内容使用说明

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值