boxplot
2018-12-01
生物坑很多人画图只会直方图,统计只会T检验,在暨大见过太多的学生连T检验都不会,分不清SEM和SD的差别,也不清楚T检验那几个简单参数的含义。我写统计笔记也是因为不想重复性地跟学生讲解T检验。
Barplot和T test一样普遍而流行,barplot适合于表示计数数据和比例,显示比例也可以用pieplot,但直方图比饼图要好,因为人类的眼睛适合于比较高度,而不是弧度。
多半时候生物学数据并非简单的计数数据,对于测量数据,在展示数据分布时,很多人会使用他们熟悉的barplot,用高度来表示mean,然后再加上errorbar,这样展示数据,信息量是非常低的,使用boxplot能够提供更多的数据分布信息,能更好地展现数据,但可能很多人只会在excel里画barplot,NatureMethods 2013年的文章中有100个barplot图,而只有20个boxplot图,从这里就可以看出来,用boxplot的人远远没有barplot多,于是NPG怒了,写了两篇专栏文章Points of View: Bar charts and box plots和Points of Significance: Visualizing samples with box plots并且发表了一篇BoxPlotR: a web tool for generation of box plots方便大家画boxplot,如此简单的web tool能够发Nature Methods,实在是让人羡慕妒忌恨啊。
Boxplot从1970年由John Tukey提示,到现在已经40多年了,他有很多的变种,比如violin plot和beanplot,violinplot和beanplot是很像的,都是把box换成density curve,beanplot另外把数据点在中间用线条表示出来,这个很容易加上去,正如我在violin plot中把数据点加进去一样。同样可以把数据点加进boxplot中,还有很多手法来展示boxplot,比如可以用缺口(notch)形式来画boxplot,可以把中间的宽度表示为median值的置信空间。boxplot的宽度可以用样本量来归一化,如果samplesize足够大的话,$mean\pm errorbar$ 不会超出box,可以很清晰把这个信息也展示在boxplot中。
如果数据量比较少,可以用scatterplot+errorbar的形式展示数据,正如我在Phosphoproteome profile of human lung cancer cell line A549中所画的图7。
赞赏抵制BMC,匹夫有责
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。
http://www.pinlue.com/style/images/nopic.gif