基因结构显示服务器,科学网—宏基因组注释和可视化神器MEGAN入门 - 刘永鑫的博文...

最新推荐文章于 2024-04-15 05:22:20 发布

楼小雨

最新推荐文章于 2024-04-15 05:22:20 发布

阅读量3.7k

点赞数

文章标签：基因结构显示服务器

本文介绍了宏基因组分析工具MEGAN的使用，包括软件安装、数据库下载、序列比对、功能和物种分类、数据可视化等方面。MEGAN支持Linux、Mac和Windows平台，提供了免费和付费版本，可用于物种分类、功能注释、多元统计分析等。文章还提到了如何使用NCBI-nr数据库进行比对，以及如何将结果转化为MEGAN特有的RMA文件进行分析。此外，还介绍了如何使用MEGAN进行物种和功能信息的可视化，包括堆叠华夫饼图、词云等不同的可视化方案。

摘要由CSDN通过智能技术生成

有时间可以写一个megan的中文教程。详细介绍软件、数据库安装，示例数据分析和结果描述。这个也引用了几千次，可以学一下。该软件还支持跨平台，我们分析在Linux和Windows上安装和测试，供不同用户选择使用。

MEGAN-宏基因组功能和物种分类

MEGAN用于功能和物种分类官网。这里有付费版和免费版本。我们以免费版为例。

MEGAN功能简介

MEGAN6是用于交互式分析微生物组数据的综合工具箱。在一个交互式工具。使用NCBI进行物种分类或自定义数据库分类(或SILVA)进行分类分析；

使用InterPro2GO，SEED，eggNOG或KEGG进行功能注释；

简单可视化条形图，词云，树形图和许多其他图表；

多元统计分析：PCoA，聚类和网络；

支持元数据(metadata)

MEGAN支持许多不同类型的数据输入

原理简要示意图

通过Diamond对序列进行比对(nr)，对输出的daa比对结果文件进行功能和物种使用MEGAN注释。当然不止可以使用Diamond比对结果，还可以使用blast的结果。

MEGAN特有文件格式：RMA

这是MEGAN自己的文件格式，用于存储序列和数据库比对结果，就是RMA格式文件，以.rma格式为后缀，比如BLAST结果，当然这里还有我们的 Diamond输出结果。这两个典型的序列比对输出类似，但是BLAST功能更加强大，Diamond在处理大的数据时速度更快。MEGAN的RMA文件也逐渐升级到RMA6，速度更快，体积更小(仅仅需要原来RMA文件的三分之一的体积)，原来的就RMA文件仍然可以在新版本的MEGAN中打开。可以在软件中通过File ——> Import From BLAST…导入。

RMA文件以许多标题行开头，每行以开头。这些行可以以任何顺序出现。@Creator MEGAN (version 4.0alpha20, built 14 Oct 2010)

@CreationDate Wed Oct 27 17:10:52 CEST 2010

@ContentType Summary4

@Names 155_PE_1_fixed-paired ecoli-testrun-2000-nr

@Uids 1288068180866 1288190195887

@Sizes 51246 2000

@TotalReads 200000

@Collapse SEED 2000041

@Algorithm Taxonomy tree-from-summary

@Parameters normalizedTo=100000

@NodeStyle KEGG piechart

前两行是软件及其版本信息和作者信息。第三行标识

注明格式为Summary4，表示这是MEGAN 4的总结文件。

第四行列出了此文件代表的所有样本的名称，这里有两个样本。第5行为样本唯一标识符编号(如果有才展示)。第6行列出了原始

样本大小。第7行列出了序列的总数。第8行针对SEED分类指定展示中图形树中的节点分类。这里除了SEED数据库，可以用TAXONOMY或KEGG代替，例如

其他分类。第9行包含用于计算分类的算法的名称。第二个是参数。第10行列出了运行参数用于生成文件。第11行指定分类节点的样式。

MEGAN下载

MEGAN提供了三种版本：Win MEGAN_Community_windows-x64_6_18_4.exe

MAC MEGAN_Community_macos_6_18_4.dmg

Linux MEGAN_Community_unix_6_18_4.sh

如Linux版下载# 安装程序 102M

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/MEGAN_Community_unix_6_18_4.sh

# NCBI-nr编号与物种和功能注释 970M

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-map-Oct2019.db.zip

# 核酸与物种信息 655MB

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-nucl-Oct2019.db.zip

提供数据库将NCBI-nr数据库比对文件注释到分类和功能：(taxonomy，eggNOG，InterPro2GO和SEED)，但是免费版本就只能使用这只是到这四个，并在使用前解压缩：megan-map-Oct2019.db.zip

当然还有需要许可证的收费版本：数据库就包含了KEGG。点击此处申请密匙 https://computomics.com/megan.html

数据库也不同于社区版本(megan-map-Oct2019-ue.db.zip)。我尝试申请了使用密匙，但是三天了也还没消息。

MEGAN使用

MEGAN(linux版本安装)

直接在terminal中运行，会弹出图形界面，按照提示安装即可，如果不选择位置，则在home下生成一个megan的文件夹。

软件安装# 方法1. conda安装 http://bioconda.github.io/ 6.12.3-0 built 14 Aug 2018，构建一个环境，但不是最新版

conda create -n megan # 创建megan环境

conda activate megan # 进入megan环境

conda install megan # 安装megan，235Mb 版本太低

# 方法2. 直接安装

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/MEGAN_Community_unix_6_18_4.sh

bash MEGAN_Community_unix_6_18_4.sh

# JVM must be at least 11. Please define INSTALL4J_JAVA_HOME to point to a suitable JVM

java -version # 1.8.0_201

# 安装完上面conda会变为 openjdk version "11.0.1-internal" 2018-10-16

数据库下载# NCBI-nr编号与物种和功能注释 970M

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-map-Oct2019.db.zip

# 解压后为 5 Gb 的db文件

unzip megan-map-Oct2019.db.zip

# 核酸与物种信息 655MB

wget -c https://software-ab.i nformatik.uni-tuebingen.de/download/megan6/megan-nucl-Oct2019.db.zip

# 解压后为 4.2 Gb 的db文件

unzip megan-nucl-Oct2019.db.zip

# NCBI-nr完整蛋白序列库和建diamond索引，2020/2/4，67G

wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz

#尝试使用pigz多线程解压缩，123G

time unpigz -k -p 16 nr.gz # 8m, 26m

#gunzip -c nr.gz > nr

time diamond makedb --in nr -d nr -p 32 # 8m, 102m

MEGAN使用指南(Linux)# 下载

wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR793/ERR793599/ERR793599_1.fastq.gz

wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR793/ERR793599/ERR793599_2.fastq.gz

# 以任意的宏基因组数据为例，ERR793599

#重压缩测序文件

pigz -p 6 -dc ./ERR793599_2.fastq.gz | pigz -p 6 > ./C1_2.fastq.gz

pigz -p 6 -dc ./ERR793599_1.fastq.gz | pigz -p 6 > ./C1_1.fastq.gz

#去除barcode并进行指控

java -jar ~/sra/Trimmomatic-0.38/trimmomatic-0.38.jar PE -threads 6 \

-phred33 ./unpack/C1_1.fastq.gz ./unpack/C1_2.fastq.gz \

./trimmomatic/C1_forward_paired.fq.gz ./trimmomatic/C1_forward_unpaired.fq.gz ./trimmomatic/C1_reverse_paired.fq.gz ./trimmomatic/C1_reverse_unpaired.fq.gz \

ILLUMINACLIP:../../database/NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:30 MINLEN:100 2> C1.log

#使用nr数据框对前端数据进行比对，每个样本可能需要至少3-5小时，由数据大小决定

diamond blastx -c 1 --db /home/wentao/Desktop/biostack/database/nr/db/nr.dmnd -t /tmp -p 34 -q ./trimmomatic/C1_forward_paired.fq.gz --daa ./diamond/C1.1.daa

#使用nr数据框对后端数据进行比对

diamond blastx -c 1 --db /home/wentao/Desktop/biostack/database/nr/db/nr.dmnd -t /tmp -p 34 -q ./trimmomatic/C1_reverse_paired.fq.gz --daa ./diamond/C1.2.daa

#转化双端daa文件为MEGAN特有额rma文件。

~/megan/tools/daa2rma -i ./diamond/C1.1.daa ./diamond/C1.2.daa --paired -ms 50 -me 0.01 -top 50 -mdb ~/db/megan/megan-map-Oct2019.db -o ./diamond/C1.rma

运行过程文件展示Parsing file: ./diamond/C1.1.daa

10% 20% 30% 40% 50% 60% 70% 80% 90% Parsing file: ./diamond/C1.2.daa

10% 20% 30% 40% 50% 60% 70% 80% 90% 100% (810.8s)

Total reads: 443,738

Alignments: 9,103,355

100% (0.0s)

Linking paired reads

Number of pairs: 178,830

Binning reads: Initializing...

Initializing binning...

Using paired reads in taxonomic assignment...

Using 'Naive LCA' algorithm for binning: Taxonomy