扩增子qiime2分析流程

写在前面:写这篇博客只是为了总结自己对扩增子分析流程的理解,加深对扩增子的映像。

扩增子分析前的准备:

软件

qiime2(2023.5)qiime2官方下载地址
###配置文件下载:

wget https://data.qiime2.org/distro/core/qiime2-2023.5-py38-linux-conda.yml

###安装:

conda env create -n qiime2-2023.5 --file qiime2-2023.5-py38-linux-conda.yml

扩增子数据和元数据(metadata)

来自公司返回的双端测序文件(.fq.gz),metadata来自个人整理的采样信息,应包括以下内容(加粗是必须项):ID,barcode,date,site,type,groupLinkerPrimerSequenceReversePrimer,Platform, latitude,longitude等。ps:metadata包括的信息越多越好,可以用excel编辑,然后保存为txt格式。
​​​​​​metadata文件

数据导入:

​​## 根据metadata生成manifest文件

awk 'NR==1{print "sample-id\tforward-absolute-filepath\treverse-absolute-filepath"} \
      NR>1{print $1"\t$PWD/seq/"$1"_R1.fq.gz\t$PWD/seq/"$1"_R2.fq.gz"}' \
      metadata.txt > manifest

head -n3 manifest

##数据导入qiime2,格式为双端33V2格式:

qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path manifest \
  --output-path demux.qza \
  --input-format PairedEndFastqManifestPhred33V2

##导入数据可视化:

qiime demux summarize \
   --i-data ./demux.qza \
   --o-visualization ./demux.qzv


将qzv文件在该网站中查看view.qiime2.org
​​​​​​​在这里插入图片描述
在这里插入图片描述
Yongxin-Liu

生成特征表和代表序列

切除序列两端的引物,左端barcode序列(10bp)+19bp上游V3区引物,右端V4为22bp下游引物。我这里barcode序列已经被切除,所以为左端为19.

time qiime dada2 denoise-paired \
  --i-demultiplexed-seqs demux.qza \
  --p-n-threads 4 \
  --p-trim-left-f 19 --p-trim-left-r 22 \
  --p-trunc-len-f 0 --p-trunc-len-r 0 \
  --o-table dada2-table.qza \
  --o-representative-sequences dada2-rep-seqs.qza \
  --o-denoising-stats denoising-stats.qza
# 改名
cp dada2-table.qza table.qza
cp dada2-rep-seqs.qza rep-seqs.qza

特征表和代表序列统计

qiime feature-table summarize \
  --i-table table.qza \
  --o-visualization table.qzv \
  --m-sample-metadata-file metadata.txt
qiime feature-table tabulate-seqs \
  --i-data rep-seqs.qza \
  --o-visualization rep-seqs.qzv

下载qzv文件并在view.qiime2.org查看,根据特征表确定抽平深度

在这里插入图片描述
在这里插入图片描述

Alpha和beta多样性分析

构建进化树用于多样性分析

qiime phylogeny align-to-tree-mafft-fasttree \
  --i-sequences rep-seqs.qza \
  --o-alignment aligned-rep-seqs.qza \
  --o-masked-alignment masked-aligned-rep-seqs.qza \
  --o-tree unrooted-tree.qza \
  --o-rooted-tree rooted-tree.qza

计算核心多样性

采样深度通常选择最小值,来自table.qzv
qiime diversity core-metrics-phylogenetic \
  --i-phylogeny rooted-tree.qza \
  --i-table table.qza \
  --p-sampling-depth 19954 \
  --m-metadata-file metadata.txt \
  --output-dir core-metrics-results

Alpha多样性组间显著性分析和可视化

可选的alpha指数有 faith_pd、shannon、observed_features、evenness
index=observed_features
qiime diversity alpha-group-significance \
  --i-alpha-diversity core-metrics-results/${index}_vector.qza \
  --m-metadata-file metadata.txt \
  --o-visualization core-metrics-results/${index}-group-significance.qzv

Alpha多样性稀疏曲线

max-depth选最大值,来自table.qzv
qiime diversity alpha-rarefaction \
  --i-table table.qza \
  --i-phylogeny rooted-tree.qza \
  --p-max-depth 78267 \
  --m-metadata-file metadata.txt \
  --o-visualization alpha-rarefaction.qzv
# 结果有observed_otus, shannon, 和faith_pd三种指数可选

Beta多样性组间显著性分析和可视化

可选的beta指数有 unweighted_unifrac、bray_curtis、weighted_unifrac和jaccard
# 7s, 指定分组是减少计算量,置换检验较耗时
distance=weighted_unifrac
column=Group
qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/${distance}_distance_matrix.qza \
  --m-metadata-file metadata.txt \
  --m-metadata-column ${column} \
  --o-visualization core-metrics-results/${distance}-${column}-significance.qzv \
  --p-pairwise

物种组成分析

物种注释,数据库见附录,可先silva-138-99-nb-classifier.qza 或 2022.10.backbone.full-length.nb.qza

1m 可选特异引物训练集如:如classifier_gg_13_8_99_V3-V4.qza 是我用V5-V7训练的文件,详见附录或官方教程

time qiime feature-classifier classify-sklearn \
  --i-classifier classer/silva-138-99-nb-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza
# 可视化物种注释
qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv
# 堆叠柱状图展示
qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file metadata.txt \
  --o-visualization taxa-bar-plots.qzv

差异分析

# 格式化特征表,添加伪计数,4s
qiime composition add-pseudocount \
  --i-table table.qza \
  --o-composition-table comp-table.qza
# 计算差异特征,指定分组类型比较,1m
column=Group
time qiime composition ancom \
  --i-table comp-table.qza \
  --m-metadata-file metadata.txt \
  --m-metadata-column ${column} \
  --o-visualization ancom-${column}.qzv

# 按属水平合并,并统计
## 按属水平合并,6s
qiime taxa collapse \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --p-level 6 \
  --o-collapsed-table table-l6.qza
# 格式化特征表,添加伪计数,6s
qiime composition add-pseudocount \
  --i-table table-l6.qza \
  --o-composition-table comp-table-l6.qza
# 计算差异属,指定分组类型比较,16s
qiime composition ancom \
  --i-table comp-table-l6.qza \
  --m-metadata-file metadata.txt \
  --m-metadata-column ${column} \
  --o-visualization ancom-l6-${column}.qzv

数据导出

导出科水平OTU表格

qiime taxa collapse\
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --p-level 5\
  --o-collapsed-table table-l5.qza

qiime tools export\
  --input-path table-l5.qza\
  --output-path exported-table

biom convert -i exported-table/feature-table.biom\
  -o exported-table/silva_l5.txt --to-tsv

导出ASV数据

qiime tools export\
  --input-path table.qza\
  --output-path exported-table
biom convert -i exported-table/feature-table.biom\
  -o exported-table/asv_table.txt --to-tsv

物种注释数据训练集

Silva 138 99% OTUs full-length sequences

官网下载

wget -c https://data.qiime2.org/2023.5/common/silva-138-99-nb-classifier.qza

Greengenes2 2022.10 full length sequences

官网下载

wget -c ftp://download.nmdc.cn/tools/amplicon/silva/silva-138-99-nb-classifier.qza

物种注释数据训练集

下载数据库文件(greengenes, 320M)

wget -c ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
mv gg_13_8_otus_99.tar.gz gg_13_8_otus.tar.gz
#解压
tar -zxvf gg_13_8_otus.tar.gz

使用rep_set文件中的99_otus.fasta数据和taxonomy中的99_OTU_taxonomy.txt数据作为参考物种注释

导入参考序列,50s

qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path gg_13_8_otus/rep_set/99_otus.fasta \
  --output-path 99_otus.qza

导入物种分类信息,6s

qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path gg_13_8_otus/taxonomy/99_otu_taxonomy.txt \
  --output-path ref-taxonomy.qza

Train the classifier(训练分类器)——全长

time qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads 99_otus.qza \
  --i-reference-taxonomy ref-taxonomy.qza \
  --o-classifier classifier_gg_13_8_99.qza

引物提取参考序列的扩增区段 Extract reference reads

常用Greengenes 13_8 99% OTUs from 341F CCTACGGGNGGCWGCAG/805R GACTACHVGGGTATCTAATCC region of sequences(分类器描述),提供测序的引物序列,截取对应的区域进行比对,达到分类的目的。

在这里插入图片描述

本次使用引物341F-805R,请根据实际替换,

time qiime feature-classifier extract-reads \
  --i-sequences 99_otus.qza \
  --p-f-primer CCTACGGGNGGCWGCAG \
  --p-r-primer GACTACHVGGGTATCTAATCC \
  --o-reads ref-seqs.qza

Train the classifier(训练分类器)

基于筛选的指定区段,生成实验特异的分类器

time qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads ref-seqs.qza \
  --i-reference-taxonomy ref-taxonomy.qza \
  --o-classifier classifier_gg_13_8_99_V3-V4.qza

参考文献

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight, J. Gregory Caporaso. 2019. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology 37: 852-857. https://doi.org/10.1038/s41587-019-0209-9

    IF: 68.164 Q1 B1
### 回答1: 扩增子分析流程是一种用于分析环境样品中微生物群落的方法,常用于研究微生物的多样性、结构和功能。QIIME 2是一款流行的用于扩增子分析的开源软件包,它提供了丰富的工具和流程来处理和分析扩增子数据。 QIIME 2的分析流程通常包括以下主要步骤: 1. 数据预处理:首先,需要对原始的扩增子测序数据进行质控和过滤,以去除低质量的序列和嵌入式引物。 2. 物种注释:对过滤后的序列进行比对,使用参考数据库(如Greengenes和Silva)进行物种注释,以确定每个序列的分类学归属。 3. 生成特征表:利用序列分类结果,将每个样品的序列计数编码到一个特征表中,该表记录了每个物种或OTU(操作分类单位)在每个样品中的相对丰度。 4. Alpha多样性分析:通过计算各个样品的Alpha多样性指数,如物种丰富度和均匀性指数,来评估样品内部的多样性。 5. Beta多样性分析:通过计算样品间的Beta多样性距离,如Bray-Curtis和Jaccard距离,来比较样品之间的微生物群落差异,并可视化为PCoA(主坐标分析)图。 6. 群落结构分析:使用各种统计方法,如ANOVA(方差分析)和PERMANOVA(多变量方差分析),来检测具有显著差异的物种或OTU,并识别对样品群落结构有影响的因素。 7. 功能预测:利用功能预测软件,如PICRUSt和Tax4Fun,根据扩增子数据中的物种注释信息,推断微生物群落的功能组成。 总之,QIIME 2是一种功能强大的工具,可以帮助研究人员从扩增子测序数据中获取丰富的信息和洞察力,并在微生物生态学、生物地球化学和医学等领域有着广泛的应用价值。 ### 回答2: QIIME2是一种用于从高通量测序数据中进行微生物群落分析的开源软件。扩增子分析流程QIIME2中的一个重要模块,用于处理和分析扩增子测序数据。 扩增子分析流程主要分为以下几个步骤: 1. 数据准备:将测序生成的原始数据导入QIIME2,并进行质量控制和序列去噪。这一步骤包括对测序错误进行校正和剔除低质量序列。 2. 物种注释:通过比对序列数据库(如Greengenes或Silva)将序列注释为对应的物种或OTU(操作性分类单元)。这一步骤可以帮助了解样本中存在的微生物种类和丰度。 3. Alpha多样性分析:计算样本内的多样性指数,如Shannon指数和Simpson指数,用于评估微生物群落的多样性程度。该分析可以显示样本内微生物的丰富度和均匀性。 4. Beta多样性分析:计算样本间的多样性差异,并进行聚类分析或PCoA(主坐标分析)来展示样本间的相似性和差异性。这一步骤可以帮助分析群落结构的相似性和差异性。 5. 物种组成分析:通过计算不同样本间的物种组成差异,使用统计学方法(如ANOVA或PERMANOVA)来鉴定群落结构差异的显著性。这一步骤可以帮助了解不同条件下微生物群落的变化。 6. 功能预测:根据16S rRNA序列或ITS序列的相对保守性,通过推断出的物种信息,对微生物群落的功能进行预测,并探索样本中存在的功能差异。 通过上述步骤,扩增子分析流程可以帮助研究人员了解微生物群落的组成、丰度、多样性和功能,从而探索微生物与宿主或环境的相互作用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值