Mothur5进阶_Mothur扩增子基因序列分析_基于OTU或ASV的多样性指数分析

最新推荐文章于 2022-06-10 15:38:59 发布

环微分析

最新推荐文章于 2022-06-10 15:38:59 发布

阅读量2k

点赞数

分类专栏：环境微生物生物信息分析分享板文章标签：生物信息学

原文链接：https://mp.weixin.qq.com/s/m3JOknI_GJEy-JcKrSQoBQ

版权

环境微生物生物信息分析分享板专栏收录该内容

35 篇文章 46 订阅

订阅专栏

本文主要讲解了使用Mothur软件对扩增子基因序列基于OTU或ASV进行多样性指数分析。

01文件名称的再处理

当比较早期和晚期样本时，最初的问题与这些样本的稳定性和群落结构的变化有关。组名是F或M（动物性别），然后是数字（动物数量），最后是D和三位数（断奶后天数）。为了简单起见，重命名count、tree、shared和consensus taxonomy文件。

屏幕输出：

02基于OTU的分析

使用count.groups命令查看每个样本中有多少个序列，

命令注释：count.groups命令用于计算group、count或shared文件的某个组或组群中的序列数量。

屏幕输出：

结果注释：最小的样本中包含2403条序列，这是一个合理的数字。

输出文件：stability.opti_mcc.count.summary

文件注释：第一列样本名，第二列序列数。

对数据进行二次抽样和稀疏很重要。使用sub.sample命令生成一个用于分析的二次抽样文件,

命令注释：sub.sample命令用于标准化数据或者从原始分组中创建更小的分组。

屏幕输出：

输出文件：stability.opti_mcc.0.03.subsample.shared

Alpha多样性

使用rarefaction.single命令生成稀疏曲线，稀疏曲线可以描述观察到的OTUs数量与采样工作量的关系。

屏幕输出：

输出文件：stability.opti_mcc.groups.rarefaction

文件注释：生成以*.rarefaction结尾的文件可以在图形软件包中进行绘制。

最后，使用summary.single命令得到一个包含序列数（number of sequences）、样本覆盖率（Coverage）、观测OTU数（observed OTUs）和逆Simpson多样性（Inverse Simpson diversity）估计的表。为了使所有内容标准化，从每个样本中随机选择2403个序列1000次并计算平均值（注意：如果设置subsample=T，则它将使用最小库）。

命令注释：summary.single命令用于生成一个综合文件，文件中包含着每行OTU数据的计算值和group文件中不同组之间所有可能的比较。

屏幕输出：

文件注释：这些数据被输出到一个名为“stability.opti_mcc.groups.ave-std.summary”的文件中的表中。打开文件可以看到样本覆盖率均高于97％，表明对群落进行了很好的抽样。

Beta多样性

现在，想使用基于OTU的方法比较各种样本间的成员和结构。计算不同样本中成员和结构的相似性。使用dist.shared命令执行此操作，该命令能够将数据稀疏化为相同数量的序列。

命令注释：dist.shared命令用于生成phylip格式且描述多组之间差异度的距离矩阵。

屏幕输出：

结果注释：这两个距离矩阵（即stability.opti_mcc.jclass.0.03.lt.ave.dist和stability.opti_mcc.thetayc.0.03.lt.ave.dist）可以使用PCoA或NMDS图可视化。主坐标（PCoA）使用基于特征向量的方法以尽可能少的维度表示多维数据。数据是高维的（~9维）。

输出文件：

stability.opti_mcc.thetayc.0.03.lt.ave.dist

stability.opti_mcc.thetayc.0.03.lt.std.dist

stability.opti_mcc.jclass.0.03.lt.ave.dist

stability.opti_mcc.jclass.0.03.lt.std.dist

命令注释：pcoa命令用于pcoa参数的相关计算。

屏幕输出：

结果注释：第一轴和第二轴分别代表总距离变化的45%和14%（59%）。输出表明，原始距离矩阵和2D PCoA空间中点之间的距离的R2为0.89，如果添加第三维，则R^2将增加至0.98。总而言之，还不错。

输出文件：

stability.opti_mcc.thetayc.0.03.lt.ave.pcoa.axes

stability.opti_mcc.thetayc.0.03.lt.ave.pcoa.loadings

文件注释：Axis是轴，Loading是数值；数据中总方差的多少部分由每个轴表示；第一和第二轴代表约45%和14%的变化（占总数的59%）的θYC距离。

使用以下命令通过二维NMDS运行数据，

命令注释：nmds命令用于nmds参数的相关计算。

屏幕输出：

nmds(phylip= stability.opti_mcc.thetayc.0.03.lt.ave.dist)

输出文件：

stability.opti_mcc.thetayc.0.03.lt.ave.nmds.iters

stability.opti_mcc.thetayc.0.03.lt.ave.nmds.stress

文件注释：Dimension：维度；Stress：应力；Rsq：R^2。

输出文件：

stability.opti_mcc.thetayc.0.03.lt.ave.nmds.axes

文件注释：第一列组名；第二列轴1的值；第三列轴2的值。
打开stability.opti_mcc.thetayc.0.03.lt.ave.nmds.stress文件，可以检查应力和R^2值，这些值描述了排序的质量。该文件中的每一行代表一个不同的迭代，并且在该迭代中获得的具有最低应力的配置记录在stable.opti_mcc.thetayc.0.03.lt.ave.nmds.axes文件中。在此文件中，发现最低应力值为0.11，R平方值为0.95；压力水平（Stress level）实际上还不错。

通过以下方式测试三个维度会发生什么，屏幕输出：

输出文件：

stability.opti_mcc.thetayc.0.03.lt.ave.nmds.iters

stability.opti_mcc.thetayc.0.03.lt.ave.nmds.stress

stability.opti_mcc.thetayc.0.03.lt.ave.nmds.axes

应力值下降到0.05，R^2值上升到0.99。理想的应力值当小于0.20，小于0.10更好。因此，可以得出结论，NMDS比PCoA更好。可以通过绘制stability.opti_mcc.subsample.pick.thetayc.0.03.lt.nmds.axes的内容来绘制NMDS数据的三个维度。同样明显的是，早期和晚期样本彼此分开聚集。

接下来探究在NMDS图中早期和晚期图之间看到的空间分隔是否具有统计显著性，可以使用两个统计工具。第一个分子变异方差分析（amova），测试代表一组的clouds的中心是否比相同处理的样本之间的差异更分离。使用之前创建的距离矩阵完成，没有使用排序。可以使用amova命令测试以确定排序内的聚类是否具有统计显著性。要运行amova，首先需要创建一个design文件，指示每个样本属于哪种处理。下载的文件夹中有一个名为mouse.time.design的文件，它看起来像这样：

然后使用此文件运行amova，如下所示，

命令注释：amova命令用于进行分析方差分析（一种传统的非参数方差分析）。

屏幕输出：

文件名：stability.opti_mcc.thetayc.0.03.lt.ave.amova

从AMOVA中看到，“cloud”的早期和晚期时间点对于这只老鼠有一个明显不同的质心。因此，在早期和晚期样本中观察到的分离具有统计学意义。

使用homova命令查看早期样本中的变化是否与晚期样本中的变化显著不同，

命令注释：homova命令用于分子方差同质性分析。（种群遗传学中用于检验两个或多个种群内的遗传多样性是同质的假设；方差同质性的非参数类比）

屏幕输出：

输出文件：

stability.opti_mcc.thetayc.0.03.lt.ave.homova

文件注释：从此文件可以看出早期样本的变异量（0.061）大于晚期样本（0.007），差异显著。

接下来使用corr.axes命令测量每个OTU的相对丰度与NMDS数据集中的两个轴的相关性来确定哪些OTU导致样本在两轴间的不同分布。

命令注释：corr.axes命令用于计shared/rebund文件中每一列的相关系数，该系数即为pcoa每一轴的参数。

屏幕输出：

输出文件：stability.opti_mcc.0.03.subsample.spearman.corr.axes

前5个OTU的数据如下所示：

文件注释：OTU所起的作用不同，以上分析有助于说明OTU对phylotypes的影响。这些数据可以在biplot中绘制，其中从原点（轴1=0，轴2=0，轴3=0）到与每个轴的相关值的辐射线都映射在PCoA或NMDS图的顶部。

接下来，使用metastats命令来描述哪些种群造成了特定处理之间的差异。构建biplot的另一种方法是提供指示每个样本的元数据的数据。提供了mouse.dpw.metadata文件，它看起来像这样：

使用metadata选项再次运行corr.axes，

命令注释：corr.axes命令将计算shared/relabund中每个列与pcoa文件中显示的轴的相关系数。numaxes参数允许您选择要使用的轴数，默认=3。

屏幕输出：

输出文件：mouse.dpw.spearman.corr.axes

文件注释：表示随着断乳后时间的延长，群落将沿着轴3向正方向移动。

可以使用另一个工具get.communitytype：查看数据是否可以划分为不同的群落类型。

命令注释：get.communitytype命令利用概率建模将微生物群落聚类为元群落。

屏幕输出：

结果注释：最小的Laplace值适用于K值为2(10436.65)，表明样本属于两种群落类型。

输出文件：stability.opti_mcc.0.03.subsample.0.03.dmm.mix.design

文件注释：可以看到所有后期样本和Day0样本都属于Partition_1，而其他早期样本则属于Partition_2。

输出文件：stability.opti_mcc.0.03.subsample.0.03.dmm.mix.summary

文件注释：可以了解哪些OTUs最能代表群落差异。

还可以将这些OTU标签与stability.opti_mcc.cons.taxonomy文件中的一致分类进行交叉引用，以获得这些生物的名称。

输出文件：

stability.opti_mcc.0.03.subsample.0.03.dmm.mix.fit

stability.opti_mcc.0.03.subsample.0.03.dmm.1.mix.posterior

stability.opti_mcc.0.03.subsample.0.03.dmm.1.mix.relabund

stability.opti_mcc.0.03.subsample.0.03.dmm.mix.parameters

Population-level analysis
除了使用corr.axes和get.communitytype，还有几种工具可以区分不同的样本组。第一个参数是metastats，它是一个非参数T检验，用于确定本研究中雌雄样本之间是否存在差异表示的任何OTU。在Mothur中运行以下命令，

命令注释：metastats命令用于分析在不同group中丰度差异显著的菌群。

屏幕输出：

输出文件：stability.opti_mcc.0.03.subsample.0.03.Late_Early.metastats

查看前五个OTUs，屏幕输出：

文件注释：mean：均值；variance：方差；standard：标准差；这些数据说明，早期样本和晚期样本之间的OTU4、5和6显著不同。

可以用来替代metastats的另一个非参数工具是lefse，

命令注释：lefse命令用于显示组间差异物种，并生成LDA文件。

屏幕输出：

输出文件：stability.opti_mcc.0.03.subsample.0.03.lefse_summary

在lefse_summary文件的顶部，可以看到屏幕输出：

文件注释：两组之间的OTU4、5和6显著不同，并且在后期样本中显着升高；第一列：OTU名称；第二列：LogMaxMean；第三列：Class分类-Late、Early；第四列：LDA值；第五列：pValue显著性。

03基于ASV的分析

基于ASV的分析与基于OTU的分析相同，但分类尺度不同。可以自己使用ASV数据复制上述基于OTU的分析。

名词解释

二次抽样：按照随机原则从同一统计总体中分两次抽取两个样本，并根据这两个样本来推断总体情况的抽样方式。

稀释曲线（Rarefaction Curve）：也称丰富度曲线，验证测序数据量是否足以反映样品中的物种多样性，并间接反映样品中物种的丰富程度。样本曲线延伸终点的横坐标位置为该样本的测序数量，如果曲线趋于平坦表明测序已趋于饱和，增加测序数据无法再找到更多的OTU；反之表明不饱和，增加数据量可以发现更多OTU。

Alphy多样性：指一个特定区域或生态系统内的多样性，是反映丰富度和均匀度的综合指标。Alpha多样性主要与两个因素有关：一是种类数目，即丰富度；二是多样性，群落中个体分配上的均匀性。群落丰富度（Community richness）指数主要包括Chao指数和Ace指数。群落多样性（Community diversity）指数，包括Shannon指数和Simpson指数。

Beta多样性：指不同生态系统之间多样性的比较，是物种组成沿环境梯度或者在群落间的变化率。通常进行PCoA分析和聚类分析。

主成分分析（Principal component analysis，PCA）:是一种研究数据相似性或差异性的可视化方法，采取降维的思想，PCA可以找到距离矩阵中最主要的坐标，把复杂的数据用一系列的特征值和特征向量进行排序后，选择主要的前几位特征值，来表示样品之间的关系。通过PCA可以观察个体或群体间的差异。PC后面的百分数表示对应特征向量对数据的解释量，此值越大越好。

主坐标分析（principal co-ordinates analysis，PCoA）：是一种与PCA类似的降维排序方法。PCoA与PCA的区别在于PCA是基于原始的物种组成矩阵所做的分析，使用的是欧式距离，仅仅比较的是物种丰度的不同，而PCoA首先根据不同的距离算法计算样品之间的距离，然后对距离矩阵进行处理，使图中点间的距离正好等于原来的差异数据，实现定性数据的定量转换。百分比含义同PCA。

非度量多维尺度分析（Non-MetricMulti-Dimensional Scaling，NMDS)：是一种适用于生态学研究的排序方法，主要是将多维空间的研究对象（样本或变量）简化到低维空间进行定位、分析和归类，同时又保留对象间原始关系的数据分析方法。类似于PCA或者PCoA，通过样本的分布可以看出组间或组内差异。检验NMDS结果的优劣用胁迫系数（stress）来衡量，此值越小越好，当小于0.2是可以用NMDS的二维点图表示，当stress<0.05时具有很好的代表性。

聚类分析：主要有bray curtis距离和Unifrac距离方法。Bray Curtis距离基于OTU的群落比较方法，其优势在于算法简单，考虑物种丰度（有无）和均度（相对丰度），但其没有考虑OTUs之间的进化关系。Unifrac距离是根据系统发生树进行比较，一般有加权和非加权分析。

P-value(an individual measure of the false positive rate)：假阳性概率值，统计学中常用的判定值，一般来说P value<0.05时差异显著。

Q-value (an individual measurement of the false discovery rate)：假发现率评估值，指本次计算的可信度。

本文提供所有输出文件，百度网盘下载链接：https://pan.baidu.com/s/10FEReaJSOwTzT4WVu4bAWQ

提取码：1234

这篇推文对你有帮助吗？喜欢这篇文章吗？喜欢就不要错过呀，关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号，小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习，也希望读者们发现错误后予以指出，小编愿与诸君共同进步！！！

学习环境微生物分析，关注“环微分析”公众号，持续更新，开源免费，敬请关注！

转载自原创文章：

Mothur5进阶_Mothur扩增子基因序列分析_基于OTU或ASV的多样性指数分析

最后，再次感谢你阅读本篇文章，真心希望对你有所帮助。感谢！

环微分析

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Mothur5进阶_Mothur扩增子基因序列分析_基于OTU或ASV的多样性指数分析

本人在读研究生，方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题，好生麻烦。于是，我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来，希望能够与大家一起学习讨论。班门弄斧，大神见文多指教，抱拳抱拳抱拳抱拳！本文主要讲解了使用Mothur软件对扩增子基因序列基于OTU或ASV进行多样性指数分析。01文件名称的再处理当比较早期和晚期样本时，最初的问题与这些样本的稳定性和群落结构的变化有关。组名是F或M（动物性别），然后是数字（
复制链接

扫一扫