箱线图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布
第一种情况,最大或最小值没有超过1.5倍箱体范围
第二种情况,最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers)
Alpha多样性
知识背景:Alpha多样性计算方法
常见的丰度估计方法有Shannon, Chao1和Observed OTU和PD whole tree等。我最喜欢用Observed OTU结果为整数,但只有物种种类信息,没有丰度信息,数值范围一般为几百至几千不等,范围很大,与研究对象有关;大家最常用的Shannon index 数值为1-10左右的小数,是综合物种数量和丰度两个层面的结果;Chao1是根据出现1/2次的OTU来估算总体;还有PD whole tree是考虑物种进化关系权重,认为分类学上非常上近的物种存在一定相关性;详细计算方法见:Alpha diversity measures
示例1
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读
图1.B 箱线图展示样品内的多样性(Alpha diversity)
- 图中元素解释
Y轴标签Estimaated species Richness代表估计的物种丰富度信息,刻度范围从0-2000可能代物OTU数量,高低对应物种丰富度即数量的高低;根据我的理解Y轴的刻度应为Observed OTU(即直接统计测序样品中按97%聚类16S的种类,虽然作者説是Shannon);
X轴将标签放在了上方(更常见位于下方),分别代表三个地区,作者采用按地区先分组,因为不同地区环境差异较大,一般先把主要差异因素分开;其次,这篇文章更关注的是水稻不同部分的微生物组,不是部分要在同一地点下进行比较才是单因素变化的分析;
右侧图例表示不同取样位置:从上到下分为土(Bulk Soil)、根际(Rhizosphere)、根表(Rhizoplane)和根内(Endosphere)四类,对应图中每个地区中箱体的不同颜色;
图中颜色箱体代表该组数据中间50%的分布区间,中间线为中位数,上下延长线端点分两种情况:如果范围小于1.5倍箱体则为最大或最小值;否则最远为1.5倍箱体长度的线。
图表意义:从不同地区看,可以看到多样性差别,代表土壤和环境条件可以影响微生物组;从取样的不同部分看,发现多样性差别极大,且不同地区有相同趋势;
图观察规律或结论:从根际-根表-根内,细菌的多样性逐渐下降的。不同地区的差别小于不同部分的差别。
示例2
这篇文章分析了白杨树不同区域的细菌组成和差异,16S分析中非常中规中矩,而且没有任何后续实验,但在今年还能发这么好的杂志,大家可以分析一下原因
图2. 箱线图展示细菌群体的Alpha多样性。四个箱体分别代表根际土(Rhizosphere soil)、根内生菌(Root endosphere)、茎内生菌(Stem endosphere)、叶内生菌(Leaf endosphere)。
- (A) 采用Observed OTUs方法估计OTU丰富度(richess),即有多少物种;
- (B) 采用Pielou方法估算OTU的均匀度(evenness),即各OTU相对丰度间关系;是一种常见enenness指数算法,计算方法是将Shannon-Wiener熵除以OTU数量的自然对数;一般生态学领域比较关注,功能研究者更关注最终的差异OTU;
- (C) 使用反向Simpson指数计算多样性(diversity),是mothor中的方法,来自dominance指数的变形,而dominance计算为每个OTU比例平方再求合,与shannon的方法类似,原理是想用一个数代表整体群体中每个OTU的数量和丰度信息(richness和evenness),我更常用Shannon方法;
- 差异分析:整体上使用ANOVA统计,存在显著差异,P<0.0001;图中字母代表组间组间Turkey两两比较的结果,相同字母的箱体代表组间无显著差异,而不同字母组间存在显著差异;有时会出现同一组出现2个字母的情况,是一种过渡状态,与这两个组均无显著差异。
- 图片优点:(A) Observed OTU数量展示使用了截断图,因为根际土中微生物数量是非常大的,而内生菌种类很少,使用截断图减少图中留白更加美观;不同种组织的颜色选用与实物相近,使人产生亲切感(根深棕,茎浅绿和叶深绿);
- 图片解读:根际土中细菌近千种;根中内生只有2-3百种(也有可能根没洗干净,技术上不容易区分根表还是根内);茎和叶百种左右(其中部分也可能只是来自于表面或污染);此外结果的排列给人传达了由外到内,由上到下有特种数量下降的趋势;
知识背景:主流的分析流程
1、PNAS作者使用QIIME分析流程;2010发表在Nature Method上,被引7689次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2
2、Microbiome作者的分析流程为mothur,2009年发表目前被近7000次;
3、另外主流的的软件是Usearch,2010年发表在Bioinformatics,目前引用4947次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1424次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。
优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);
缺点:64位版收费(这么好的软件,收费也值得买);部分功能还需使用QIIME脚本,估计将来可以全自己搞定,因为作者太强大