微生物群落多样性——LEfSe分析

 一、LEfSe的定义


       LEfSe分析即LDA EFfect Size分析,是一种用于发现和解释高维度数据生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的生物标识(Biomarker )。


二、LEfSe结果分析


       一般在微生物多样性分析结果中,会出现两个图,一张表(LDA值分布柱状图、进化分支图及特征表)。

1.LDA值分布柱状图

        条形图展示了LDAscore大于预设值的显著差异物种,即具有统计学差异的Biomaker,默认预设值为2.0(看横坐标,只有LDA值的绝对值大于2才会显示在图中);柱状图的颜色代表各自的组别,长短代表的是LDA score,即不同组间显著差异物种的影响程度。

2 、进化分支图

 

 小圆圈:图中由内至外辐射的圆圈代表了由门至属的分类级别(最里面的那个黄圆圈是界)。不同分类级别上的每一个小圆圈代表该水平下的一 个分类,小圆圈的直径大小代表了相对丰度的大小。
颜色:无显著差异的物种统一着色为黄色 ,差异显著的物种Biomarker跟随组别进行着色,红色节点表示在红色组别中起到重要作用的微生物类群。蓝色节点表示在蓝色组别中起到重要作用的微生物类群。

未能在图中显示的Biomarker对应的物种名会展示在右侧,字母编号与图中对应(为了美观,右侧默认只显示门到科的差异物种)。

 3、特征表

第一列: Biomarker名称;
第二列:各组分丰度平均值中最大值的log10 ,如果平均丰度小于10的按照10来计算;
第三列:差异基因或物种富集的组名; 
第四列: LDA值;
第五列: Kruskal-Wallis秩和检验的p值,若不是Biomarker用"-"表示。

三、

A.首先在多组样本中采用的非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种;
B.再利用Wilcoxon秩和检验检查在显著差异物种类中的所有亚种比较是否都趋同于同一-分类级别;
C.最后用线性判别分析( LDA )对数据进行降维和评估差异显著的物种的影响力(即LDA score )。

四、LEfSe分析中的检验


1、参数检验与非参数检验的区别


参数检验:即总体分布类型已知,用样本指标对总体参数进行推断或作假设检验的统计检验方法。
非参数检验:即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。
参数检验分类:T检验,方差分析,(要求:放齐性、正态分布)。
选用非参数检验的情况有:①总体分布不易确定(即不知道是不是正态分布)②分布呈非正态而无适当的数据转换方法③等级资料等。
一般地 ,微生物多样性分析中,样本群落分布不确定,多采用非参数检验。

秩和检验:

       秩和检验是-种非参数检验法,它是一种用样本秩来代替样本值的检验法。根据样本分组的不同可分为两样本Wilcoxon秩和检验和多样本Kruskal-Wallis检验。


秩次(rank):秩统计量,是指全部观察值按从小到大排列的位序;


秩和(rank sum):同组秩次之和。秩和检验就是通过秩次的排序列求出秩和,进行假设检验。
a) Wilcoxon秩和检验( Wilcoxon rank sum test ,也称为Mann-Whitney Test) ;
基本思想是:若检验假设成立,则两组的秩和不应相差太大。通过编秩,用秩次代替原始数据信息来进行检验。
原理就是不管样本中的数据到底是多少,将两样本数据混合后从小到大排序,然后按顺序赋秩,最小的赋为1 ,最大的赋为n1+n2 ,分别对两个样本求平均秩,如果两个样本的平均秩相差不大,则说明两个总体不存在显著差异;反之,若相差较大,先分别求出两个样本的秩和,再计算检验统计量(含量较小的样本秩和)和统计量(期望秩和,查T值表可知)的P值并作出决策。
补充材料:Wilcoxon秩和检验是由F. Wilcoxon于1945年提出, 1947年,Mann和Wiltney对Wilcoxon秩和检验进行了补充,后面就有了Mann-Wiltney检验。


b) Kruskal-Wallis秩和检验:
原理与两样本Wilcoxon检验类似。不同的是Kruskal-Wallis秩和检验针对多组独立样本,且进行的是H检验;在实际秩和与期望秩和差值的基础上计算检验统计量,最后计算出统计量的P值并作出决策。需注意的是,多组样本差异显著时,应进行多样本的两两比较的秩和检验。
 

  • 7
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
微⽣物组16SrRNA数据分析 微⽣物组16sRNA 数据分析常规流程:划分OTU , 构造距离矩阵,分析物种多样性指数,构建序列的进化树及物种注释信息。 可以使⽤USEARCH、VSearch、Qiime来进⾏分析。 1、划分OTU OTU为操作分类单元,基于序列相似度⾼于97%,将每个sample划分成不同OTU,每个OTU⽤⼀条序列read来代表,基于该代表序列进 ⾏物种注释和分析。划分完OTU后,可获得OTUtable,包括:每个sample的各OTU所含reads数⽬,可获得相对丰度信息, 即各OTU中 reads所占总sample reads的百分⽐。 2、物种注释 将各OTU代表序列与⽣物数据库已有序列进⾏对⽐,给每个OTU追溯其物种来源,划分到:界(Kingdom)、门(Phylum)、纲 (Class)、⽬(Order)、科(Family)、属(Genus)、种(Species),进⾏物种注释。 tips: 根据OTU table和物种注释信息,将相同level的物种丰度相加,整理出每个level的物种丰度⽂件。⽐⽅说将family level中,相同family的 物种丰度相加,形成⼀个family level的物种丰度⽂件。其作⽤为可以通过直接⽐较不同分组的物种丰度,从⽽找出哪些物种的丰度在组间 存在差异,即挑选可以区分不同组的marker(理解:整合相同level的物种,根据物种在不同样本组的丰度不同,从⽽区分不同的样本组) 3、物种进化树 通过各OTU代表序列之间的相似性来构建物种进化树,aerf多样性⽤于描述⼀个样本中有多少个物种,最简单的单位是richness,即样本中 OTU的个数。 beta多样性,即距离矩阵⽤于描述两个样本之间的相似程度 4、物种构成与优势物种 相对丰度最⼤的物种为优势物种 aerfa多样性分析可采⽤rarefaction curve稀释曲线, rank abundance curve丰度等级曲线、盒图进⾏展现。 rarefaction curve稀释曲线图像解读:横坐标为每次抽样的reads数⽬,纵坐标表⽰每次抽样得到的OTU数据。Qiime可以⽣成稀释曲线。 好的抽样⽅式能够使曲线最终趋于平缓,如图⽰ rank abundance curve丰度等级曲线图像解读:横坐标为相对丰度从⼤到⼩的OTU的ID,纵坐标为相对丰度,如图⽰ 盒图根据各组样本的丰度均值来画图,横轴为物种,纵轴为该物种在所有样本中的平均丰度值 5、各样本α多样性和β多样性指数的组间差异 α多样性 β多样性:以距离矩阵作为输⼊,使⽤PERMANOVA做组间的差异⽐较,以PCA .MDS,ISOMap等进⾏降维,产⽣新坐标进⾏绘图和可视 化。 对16s微⽣物组数据⽽⾔,组间物种构成的差异以PERMANOVA的统计检验结果为准,PCA(MDS)所作的⼆维或三维散点图为可视化⼿ 段,为更直观的展现组间差异(需要实践) 6.biomarker Biomarker是⽤以区分微⽣物组的标记,具体的判定准则是:不同微⽣物组的某相同物种,其相对丰度存在统计学意义上的差异,利⽤该物 种的丰度差异可以区分不同的微⽣物组别,简⽽⾔之,即微⽣物组中相对丰度明显不同的物种可以作为biomarker。⽬前常⽤的⽅法有: boruta(python或者R可视化)、lefse(web端软件封装)、统计检验⽅法(heatmap及boxplot展现) 6、功能分析PICRUST 物种功能预测分析linux软件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值