有时间可以写一个megan的中文教程。详细介绍软件、数据库安装,示例数据分析和结果描述。这个也引用了几千次,可以学一下。该软件还支持跨平台,我们分析在Linux和Windows上安装和测试,供不同用户选择使用。
MEGAN-宏基因组功能和物种分类
MEGAN用于功能和物种分类官网。这里有付费版和免费版本。我们以免费版为例。
MEGAN功能简介
MEGAN6是用于交互式分析微生物组数据的综合工具箱。在一个交互式工具。使用NCBI进行物种分类或自定义数据库分类(或SILVA)进行分类分析;
使用InterPro2GO,SEED,eggNOG或KEGG进行功能注释;
简单可视化 条形图,词云,树形图和许多其他图表;
多元统计分析:PCoA,聚类和网络;
支持元数据(metadata)
MEGAN支持许多不同类型的数据输入
原理简要示意图
通过Diamond对序列进行比对(nr),对输出的daa比对结果文件进行功能和物种使用MEGAN注释。当然不止可以使用Diamond比对结果,还可以使用blast的结果。
MEGAN特有文件格式:RMA
这是MEGAN自己的文件格式,用于存储序列和数据库比对结果,就是RMA格式文件,以.rma格式为后缀,比如BLAST结果,当然这里还有我们的 Diamond输出结果。这两个典型的序列比对输出类似,但是BLAST功能更加强大,Diamond在处理大的数据时速度更快。MEGAN的RMA文件也逐渐升级到RMA6,速度更快,体积更小(仅仅需要原来RMA文件的三分之一的体积),原来的就RMA文件仍然可以在新版本的MEGAN中打开。可以在软件中通过File ——> Import From BLAST…导入。
RMA文件以许多标题行开头,每行以开头。 这些行可以以任何顺序出现。@Creator MEGAN (version 4.0alpha20, built 14 Oct 2010)
@CreationDate Wed Oct 27 17:10:52 CEST 2010
@ContentType Summary4
@Names 155_PE_1_fixed-paired ecoli-testrun-2000-nr
@Uids 1288068180866 1288190195887
@Sizes 51246 2000
@TotalReads 200000
@Collapse SEED 2000041
@Algorithm Taxonomy tree-from-summary
@Parameters normalizedTo=100000
@NodeStyle KEGG piechart
前两行是软件及其版本信息和作者信息。第三行标识
注明格式为Summary4,表示这是MEGAN 4的总结文件。
第四行列出了此文件代表的所有样本的名称,这里有两个样本。第5行为样本唯一标识符编号(如果有才展示)。第6行列出了原始
样本大小。第7行列出了序列的总数。第8行针对SEED分类指定展示中图形树中的节点分类。这里除了SEED数据库,可以用TAXONOMY或KEGG代替,例如
其他分类。第9行包含用于计算分类的算法的名称。第二个是参数。第10行列出了运行参数用于生成文件。第11行指定分类节点的样式。
MEGAN下载
MEGAN提供了三种版本:Win MEGAN_Community_windows-x64_6_18_4.exe
MAC MEGAN_Community_macos_6_18_4.dmg
Linux MEGAN_Community_unix_6_18_4.sh
如Linux版下载# 安装程序 102M
wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/MEGAN_Community_unix_6_18_4.sh
# NCBI-nr编号与物种和功能注释 970M
wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-map-Oct2019.db.zip
# 核酸与物种信息 655MB
wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-nucl-Oct2019.db.zip
提供数据库将NCBI-nr数据库比对文件注释到分类和功能:(taxonomy,eggNOG,InterPro2GO和SEED),但是免费版本就只能使用这只是到这四个,并在使用前解压缩:megan-map-Oct2019.db.zip
当然还有需要许可证的收费版本:数据库就包含了KEGG。点击此处申请密匙 https://computomics.com/megan.html
数据库也不同于社区版本(megan-map-Oct2019-ue.db.zip)。我尝试申请了使用密匙,但是三天了也还没消息。
MEGAN使用
MEGAN(linux版本安装)
直接在terminal中运行,会弹出图形界面,按照提示安装即可,如果不选择位置,则在home下生成一个megan的文件夹。
软件安装# 方法1. conda安装 http://bioconda.github.io/ 6.12.3-0 built 14 Aug 2018,构建一个环境,但不是最新版
conda create -n megan # 创建megan环境
conda activate megan # 进入megan环境
conda install megan # 安装megan,235Mb 版本太低
# 方法2. 直接安装
wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/MEGAN_Community_unix_6_18_4.sh
bash MEGAN_Community_unix_6_18_4.sh
# JVM must be at least 11. Please define INSTALL4J_JAVA_HOME to point to a suitable JVM
java -version # 1.8.0_201
# 安装完上面conda会变为 openjdk version "11.0.1-internal" 2018-10-16
数据库下载# NCBI-nr编号与物种和功能注释 970M
wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-map-Oct2019.db.zip
# 解压后为 5 Gb 的db文件
unzip megan-map-Oct2019.db.zip
# 核酸与物种信息 655MB
wget -c https://software-ab.i nformatik.uni-tuebingen.de/download/megan6/megan-nucl-Oct2019.db.zip
# 解压后为 4.2 Gb 的db文件
unzip megan-nucl-Oct2019.db.zip
# NCBI-nr完整蛋白序列库和建diamond索引,2020/2/4,67G
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
#尝试使用pigz多线程解压缩,123G
time unpigz -k -p 16 nr.gz # 8m, 26m
#gunzip -c nr.gz > nr
time diamond makedb --in nr -d nr -p 32 # 8m, 102m
MEGAN使用指南(Linux)# 下载
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR793/ERR793599/ERR793599_1.fastq.gz
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR793/ERR793599/ERR793599_2.fastq.gz
# 以任意的宏基因组数据为例,ERR793599
#重压缩测序文件
pigz -p 6 -dc ./ERR793599_2.fastq.gz | pigz -p 6 > ./C1_2.fastq.gz
pigz -p 6 -dc ./ERR793599_1.fastq.gz | pigz -p 6 > ./C1_1.fastq.gz
#去除barcode并进行指控
java -jar ~/sra/Trimmomatic-0.38/trimmomatic-0.38.jar PE -threads 6 \
-phred33 ./unpack/C1_1.fastq.gz ./unpack/C1_2.fastq.gz \
./trimmomatic/C1_forward_paired.fq.gz ./trimmomatic/C1_forward_unpaired.fq.gz ./trimmomatic/C1_reverse_paired.fq.gz ./trimmomatic/C1_reverse_unpaired.fq.gz \
ILLUMINACLIP:../../database/NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:30 MINLEN:100 2> C1.log
#使用nr数据框对前端数据进行比对,每个样本可能需要至少3-5小时,由数据大小决定
diamond blastx -c 1 --db /home/wentao/Desktop/biostack/database/nr/db/nr.dmnd -t /tmp -p 34 -q ./trimmomatic/C1_forward_paired.fq.gz --daa ./diamond/C1.1.daa
#使用nr数据框对后端数据进行比对
diamond blastx -c 1 --db /home/wentao/Desktop/biostack/database/nr/db/nr.dmnd -t /tmp -p 34 -q ./trimmomatic/C1_reverse_paired.fq.gz --daa ./diamond/C1.2.daa
#转化双端daa文件为MEGAN特有额rma文件。
~/megan/tools/daa2rma -i ./diamond/C1.1.daa ./diamond/C1.2.daa --paired -ms 50 -me 0.01 -top 50 -mdb ~/db/megan/megan-map-Oct2019.db -o ./diamond/C1.rma
运行过程文件展示Parsing file: ./diamond/C1.1.daa
10% 20% 30% 40% 50% 60% 70% 80% 90% Parsing file: ./diamond/C1.2.daa
10% 20% 30% 40% 50% 60% 70% 80% 90% 100% (810.8s)
Total reads: 443,738
Alignments: 9,103,355
100% (0.0s)
100% (0.0s)
100% (0.0s)
Linking paired reads
Number of pairs: 178,830
Binning reads: Initializing...
Initializing binning...
Using paired reads in taxonomic assignment...
Using 'Naive LCA' algorithm for binning: Taxonomy
Using Best-Hit algorithm for binning: SEED
Using Best-Hit algorithm for binning: EGGNOG
Using Best-Hit algorithm for binning: INTERPRO2GO
Binning reads...
Binning reads: Analyzing alignments
Total reads: 443,738
With hits: 443,738
Alignments: 9,103,355
Assig. Taxonomy: 443,738
Assig. SEED: 5