Miseq 16S amplicon V3V4 PE300测序是目前菌群结构谱研究最为常用的测序手段。本文将以此类测序的下机数据为例展示“如何从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”的工作流程。该丰度表是做菌群研究最为基本的数据,要想发文章还必须做大量的统计分析。在以后的文章中我们会继续推出一些统计分析方法,敬请期待!
软件准备
Linux环境:
1. FastQC
质检下机数据
2. Cutadapt
切除测序引物
3. QIIME2
序列拼接、质控、比对、注释
软件版本:QIIME2 2018.4或QIIME2 2018.8
Windows环境:
1. Filezilla
下载Linux环境中的数据或上传数据到Linux环境
2. Excel
数据处理
3. QIIME2 view
查看QIIME2输出的以.qzv为后缀的文件
数据准备
1. Miseq 16S amplicon V3V4测序下机数据
*R1.fastq,*R2.fastq
2. 测序引物
p1 -> CCTACGGGNGGCWGCAG
p2 -> GACTACHVGGGTATCTAATCC
3. 表型文件metadata.txt
准备存放样本信息的表型文件,以tab键为分隔符。可以先在Excel中做表,然后保存为tsv文件。
格式如下:
4. Greengenes细菌16S全长序列数据库
下载得到gg_13_8_otus.tar.gz(最新版,大小为305M)后将其解压得到99_otus.fasta(序列)和99_otu_taxonomy.txt(分类)两个文件,文件获取如下:
流程概览