宏基因组分析-基于组装

本文详细介绍了宏基因组分析中的基于组装方法,包括数据预处理、使用MEGAHIT组装、Prodigal基因预测、CD-HIT去冗余及BWA、DIAMOND软件进行物种和功能注释。通过对基因、物种和功能的分析,揭示微生物多样性和生态功能,为环境样本的微生物研究提供深入理解。
摘要由CSDN通过智能技术生成

一、介绍

宏基因组 ( Metagenome) 指特定环境下所有生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因。一般从环境样品中提取基因组DNA, 进行高通量测序,从而分析微生物多样性、种群结构、功能信息、与环境之间的关系等。

宏基因组的分析目前主要包括三种方法:基于组装分析、基于reads分析、基于bin分析。

下面我们介绍基于组装的分析方法。

二、分析流程介绍

数据分析从下机原始序列开始,首先对原始序列进行去接头、 质量剪切以及去除污染等优化处理。然后使用优质序列进行拼接组装和基因预测,将各样本预测得到的基因集合并在一起去冗余,得到非冗余基因集;对得到的非冗余基因集进行物种和功能上的注释,并使用BWA软件将优化序列比对到非冗余基因集,计算得到各基因在各样品中的丰度信息(RPKM); 对物种和功能注释结果进行统计分析。

 

三、详细流程

  1. 使用fastp软件使用划框方法去除低质量碱基,同时去除接头序列;如果样品来源于宿主(比如人或动物的粪便),而且该宿主本身的基因组已被发表, 则通过软件Bowtie2将reads比对宿主DNA序列,并去除比对相似性高的污染reads;
  2. MEGAHIT是一个二代测序从头组装工具,尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,同时提供更好的完整性和连续性,为行业的主流组装软件。使用Megahit软件通过设置不同kmer参数,对优化序列进行组装得到Contigs;可以通过N50判断组装结果的质量。

样品名称

序列数(条)

碱基数(bp)

Mean(bp)

Max(bp)

N50(bp)

N70(bp)

N90(bp)

Sample1

  • 11
    点赞
  • 88
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值