基因结构显示服务器,科学网—宏基因组注释和可视化神器MEGAN入门 - 刘永鑫的博文...

有时间可以写一个megan的中文教程。详细介绍软件、数据库安装,示例数据分析和结果描述。这个也引用了几千次,可以学一下。该软件还支持跨平台,我们分析在Linux和Windows上安装和测试,供不同用户选择使用。

MEGAN-宏基因组功能和物种分类

MEGAN用于功能和物种分类官网。这里有付费版和免费版本。我们以免费版为例。

MEGAN功能简介

MEGAN6是用于交互式分析微生物组数据的综合工具箱。在一个交互式工具。使用NCBI进行物种分类或自定义数据库分类(或SILVA)进行分类分析;

使用InterPro2GO,SEED,eggNOG或KEGG进行功能注释;

简单可视化 条形图,词云,树形图和许多其他图表;

多元统计分析:PCoA,聚类和网络;

支持元数据(metadata)

MEGAN支持许多不同类型的数据输入

原理简要示意图

通过Diamond对序列进行比对(nr),对输出的daa比对结果文件进行功能和物种使用MEGAN注释。当然不止可以使用Diamond比对结果,还可以使用blast的结果。

a8ceea4418db57086d7df716450de1a0.png

MEGAN特有文件格式:RMA

这是MEGAN自己的文件格式,用于存储序列和数据库比对结果,就是RMA格式文件,以.rma格式为后缀,比如BLAST结果,当然这里还有我们的 Diamond输出结果。这两个典型的序列比对输出类似,但是BLAST功能更加强大,Diamond在处理大的数据时速度更快。MEGAN的RMA文件也逐渐升级到RMA6,速度更快,体积更小(仅仅需要原来RMA文件的三分之一的体积),原来的就RMA文件仍然可以在新版本的MEGAN中打开。可以在软件中通过File ——> Import From BLAST…导入。

RMA文件以许多标题行开头,每行以开头。 这些行可以以任何顺序出现。@Creator MEGAN (version 4.0alpha20, built 14 Oct 2010)

@CreationDate Wed Oct 27 17:10:52 CEST 2010

@ContentType Summary4

@Names 155_PE_1_fixed-paired ecoli-testrun-2000-nr

@Uids 1288068180866 1288190195887

@Sizes 51246 2000

@TotalReads 200000

@Collapse SEED 2000041

@Algorithm Taxonomy tree-from-summary

@Parameters normalizedTo=100000

@NodeStyle KEGG piechart

前两行是软件及其版本信息和作者信息。第三行标识

注明格式为Summary4,表示这是MEGAN 4的总结文件。

第四行列出了此文件代表的所有样本的名称,这里有两个样本。第5行为样本唯一标识符编号(如果有才展示)。第6行列出了原始

样本大小。第7行列出了序列的总数。第8行针对SEED分类指定展示中图形树中的节点分类。这里除了SEED数据库,可以用TAXONOMY或KEGG代替,例如

其他分类。第9行包含用于计算分类的算法的名称。第二个是参数。第10行列出了运行参数用于生成文件。第11行指定分类节点的样式。

MEGAN下载

MEGAN提供了三种版本:Win MEGAN_Community_windows-x64_6_18_4.exe

MAC MEGAN_Community_macos_6_18_4.dmg

Linux MEGAN_Community_unix_6_18_4.sh

如Linux版下载# 安装程序 102M

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/MEGAN_Community_unix_6_18_4.sh

# NCBI-nr编号与物种和功能注释 970M

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-map-Oct2019.db.zip

# 核酸与物种信息 655MB

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-nucl-Oct2019.db.zip

提供数据库将NCBI-nr数据库比对文件注释到分类和功能:(taxonomy,eggNOG,InterPro2GO和SEED),但是免费版本就只能使用这只是到这四个,并在使用前解压缩:megan-map-Oct2019.db.zip

当然还有需要许可证的收费版本:数据库就包含了KEGG。点击此处申请密匙 https://computomics.com/megan.html

数据库也不同于社区版本(megan-map-Oct2019-ue.db.zip)。我尝试申请了使用密匙,但是三天了也还没消息。

MEGAN使用

MEGAN(linux版本安装)

直接在terminal中运行,会弹出图形界面,按照提示安装即可,如果不选择位置,则在home下生成一个megan的文件夹。

软件安装# 方法1. conda安装 http://bioconda.github.io/ 6.12.3-0 built 14 Aug 2018,构建一个环境,但不是最新版

conda create -n megan # 创建megan环境

conda activate megan # 进入megan环境

conda install megan # 安装megan,235Mb 版本太低

# 方法2. 直接安装

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/MEGAN_Community_unix_6_18_4.sh

bash MEGAN_Community_unix_6_18_4.sh

# JVM must be at least 11. Please define INSTALL4J_JAVA_HOME to point to a suitable JVM

java -version # 1.8.0_201

# 安装完上面conda会变为 openjdk version "11.0.1-internal" 2018-10-16

数据库下载# NCBI-nr编号与物种和功能注释 970M

wget -c https://software-ab.informatik.uni-tuebingen.de/download/megan6/megan-map-Oct2019.db.zip

# 解压后为 5 Gb 的db文件

unzip megan-map-Oct2019.db.zip

# 核酸与物种信息 655MB

wget -c https://software-ab.i   nformatik.uni-tuebingen.de/download/megan6/megan-nucl-Oct2019.db.zip

# 解压后为 4.2 Gb 的db文件

unzip megan-nucl-Oct2019.db.zip

# NCBI-nr完整蛋白序列库和建diamond索引,2020/2/4,67G

wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz

#尝试使用pigz多线程解压缩,123G

time unpigz -k -p 16 nr.gz # 8m, 26m

#gunzip -c nr.gz > nr

time diamond makedb --in nr -d nr -p 32 # 8m, 102m

MEGAN使用指南(Linux)# 下载

wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR793/ERR793599/ERR793599_1.fastq.gz

wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR793/ERR793599/ERR793599_2.fastq.gz

# 以任意的宏基因组数据为例,ERR793599

#重压缩测序文件

pigz -p 6 -dc ./ERR793599_2.fastq.gz | pigz -p 6 > ./C1_2.fastq.gz

pigz -p 6 -dc ./ERR793599_1.fastq.gz | pigz -p 6 > ./C1_1.fastq.gz

#去除barcode并进行指控

java -jar ~/sra/Trimmomatic-0.38/trimmomatic-0.38.jar PE -threads 6 \

-phred33 ./unpack/C1_1.fastq.gz ./unpack/C1_2.fastq.gz \

./trimmomatic/C1_forward_paired.fq.gz ./trimmomatic/C1_forward_unpaired.fq.gz ./trimmomatic/C1_reverse_paired.fq.gz ./trimmomatic/C1_reverse_unpaired.fq.gz \

ILLUMINACLIP:../../database/NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:30 MINLEN:100 2> C1.log

#使用nr数据框对前端数据进行比对,每个样本可能需要至少3-5小时,由数据大小决定

diamond blastx -c 1 --db /home/wentao/Desktop/biostack/database/nr/db/nr.dmnd  -t /tmp -p 34 -q ./trimmomatic/C1_forward_paired.fq.gz --daa ./diamond/C1.1.daa

#使用nr数据框对后端数据进行比对

diamond blastx -c 1 --db /home/wentao/Desktop/biostack/database/nr/db/nr.dmnd  -t /tmp -p 34 -q ./trimmomatic/C1_reverse_paired.fq.gz --daa ./diamond/C1.2.daa

#转化双端daa文件为MEGAN特有额rma文件。

~/megan/tools/daa2rma -i ./diamond/C1.1.daa ./diamond/C1.2.daa --paired -ms 50 -me 0.01 -top 50  -mdb ~/db/megan/megan-map-Oct2019.db  -o ./diamond/C1.rma

运行过程文件展示Parsing file: ./diamond/C1.1.daa

10% 20% 30% 40% 50% 60% 70% 80% 90% Parsing file: ./diamond/C1.2.daa

10% 20% 30% 40% 50% 60% 70% 80% 90% 100% (810.8s)

Total reads:           443,738

Alignments:          9,103,355

100% (0.0s)

100% (0.0s)

100% (0.0s)

Linking paired reads

Number of pairs:       178,830

Binning reads: Initializing...

Initializing binning...

Using paired reads in taxonomic assignment...

Using 'Naive LCA' algorithm for binning: Taxonomy

Using Best-Hit algorithm for binning: SEED

Using Best-Hit algorithm for binning: EGGNOG

Using Best-Hit algorithm for binning: INTERPRO2GO

Binning reads...

Binning reads: Analyzing alignments

Total reads:          443,738

With hits:             443,738

Alignments:          9,103,355

Assig. Taxonomy:       443,738

Assig. SEED:            53,0

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值