如何进行基因组注释

定义

基因组注释:是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释:即在一条DNA序列上,通过从头、同源、结构定义等多种方法,搜寻并定义基因组原件,得到其位置、序列、结构、功能等信息。

基因组注释流程图

基因组注释

基因组注释前期准备

物种拉丁名,例如:Orazy sativa,基因id:Osa000001
同源物种: 一般选5个左右物种,需要有注释的基因/蛋白序列,保证高组装和注释质量
转库组数据: RNAseq和lsoseq注释(用于结构注释中的转录辅助注释)(建议自测同样本的数据)

基因组注释的分析内容

yapatO.png]

重复注释

重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间。根据分布把重复序列分为散在重复序列和串联重复序列。
重复序列根据序列特征分为2类:串联重复(Tandem repeats)和散布重复(Dispersed repeats)

  1. RepeatMasker:基于Repbase(dna)/自建elibrary查询重复序列
1
2
3
RepeatMasker -nolow -no_is -norna -parallel 2 -lib RepeatMasker.lib genome.fa
#-nohow:屏蔽低复杂简单重复; -no_is:跳过细菌插入元件检查; -norna:不掩盖小RNA(伪)基因;
#-parallel 并行使用的处理器数,可提升分析速度
  1. RepeatProteinMask:基于 Repbase(pep)查询重复序列
1
2
3
RepeatProteinMask -noLowSimple -pvalue 0.0001 genome.fa
#noLowSimple:关闭低复杂度和简单重复的屏蔽/注释; -pvalue:接受匹配的阈值
#注意点: genome.fa的D不能长于18个字符
  1. TRF:元件的结构特征等来识别重复序列
1
trf genome.fa 2 7 7 80 10 50 2000 -d -h
  1. LTR-FINDER:基于重复序列特征
1
2
Itr_finder -W 2 -C -s tRNAs.fa genome.fa
#-w 2 输出格式,2-table;  -C:检测中心粒,删除高重复区域
  1. repeatmodeler:基于自身序列比对
1
2
3
4
BuildDatabase -name mydb genome.fa
RepeatModeler -database mydb -pa 6 >run.out
#-name:创建 database的名称;
#-pa:共享内存处理器的数量程序,可提升分析速度
每个软件都有很多参数,可-help/-h自行查看,参数的选择最好是参考已发表的文献

结构注释

结构注释:注释可以产生具有生物学功能的蛋白的基因。一般包括启动子,转录起始,5’UTR,起始密码子,外显子,内含子,终止密码子,3’UTR,poly-A等结构。

yapdhD.png]

De novo预测(屏蔽重复序列)

  1. Augustus(真核)

    1
    2
    3
    4
    
    augustus --species=XXX --AUGUSTUS CONFIG PATH= config --uniqueGeneld=true --nolnFrameStop=true--gff3=on --strand=both genome.mask.fa> genome.mask.fa.out
    # --uniqueGeneld=true:gene:命名 aseqname.gn;
    # --nolnFrameStop=true:不带有终止密码子的转录本;
    # --gff3=on:输出格式gff3
    
  2. GlimmerHMM(真核,预测的基因数目较多长度较短,一般用于植物)

    1
    2
    3
    4
    5
    6
    
    glimmerhmm.genome.mask.fa -d XXX- f -g genome.mask.fa.gff
    
    # -d 库de路径;
    # -f:不要partial gene predictions;
    # -g输出格式gff
    
    
  3. Genscan(真核,其预测的内含子较大,一般用于动物)

    1
    2
    
    genscan Humanlso.smat genome.mask.fa > genome.mask.fa.genscan
    # Humanlsc.smat:参数文件,软件自带
    

4.其他软件

SNAP. GenelD GenemarkS
denovo的软件很多,两个软件就可以了,太多软件会增加较多的假阳性,一般在
Augustus, GlimmerHMM, Genscan中选择即可

Homolog注释

利用近缘物种已知基因进行序列比对,找到同源序列。然后在同源序列的基础上,根据基因信号如剪切信号、基因起始和终止密码子对基因结构进行预测。
相对于从头预测的“大海捞针”,同源预测相当于先用一块磁铁在基因组大海中缩小了可能区域,然后从可能区域中鉴定基因结构。

利用TBlastn将同源物种的蛋白比对回基因组,得到候选区域。
利用 EXonerate/ Genewise进行精确的蛋白-核酸比对,以得到剪接位点。
Exonerate解决了 GeneWisez存在的很多问题,并且速度快了1000倍,默认选择EXonerate分析

RNA-seq辅助注释

tophat比对————>cufflink转录本————>TransDecoder
  1. 将RNAseq数据进行tophat比对;
  2. 比对后的结果文件利用cufflink构建转录本
  3. 使用TransDecoder在构建的转录本上预测Open Reading Frame(ORF)。

Iso seq 辅助注释

CD-HIT————>gmap比对————>TransDecoder
  1. 将物种的三代全长转录本用CD-HIT进行去冗余;
  2. 将去冗余后的序列使用gmap比对回基因组得到转录本位置;
  3. 使用TransDecoder在构建的转录本上预测 Open Reading Frame(ORF).

基因结构预测方法可信度排序

MAKERE整合

在基因组注释上, MAKER算是一个很强大的分析流程,主要是进行 Denovo注释, Homolog注释,转录辅助注释三者的整合,保证最终注释基因集的可靠性

1
2
3
4
maker maker_exe.ctl maker_opts.ctl maker_bopts.ctl
#maker exe.ct:执行程序的路径
#maker_ boots.ctl: BLAST7和 Exonerate的过滤参数
#maker opts.ctl:其他信息,例如输入基因组文件,主要调整输入文件等( genome= ;est= ;protein= ;pred_gff= ;)

nCRNA注释

  • rRNA(核糖体RNA)
    与蛋白质结合形成核糖体,其功能是作为mn的支架,提供mRNA翻译成蛋白质的场所。
  • tRNA(转运RNA)
    ·携带氨基酸进入核糖体,使之在mRNA指导下合成蛋白质。
  • miRNA(miRNA)
    ·将mRNA降解或抑制其翻译,具有沉默基因的功能。
  • SnRNA(小核RNA)
    ·主要参与RNA前体的加工过程,是RNA剪切体的主要成分。

miRNA与snRNA注释

rRNA注释

  • 由于rRNA的结构保守程度非常高,因此采用与已有的全长rRNA进行blastn比对而获得。
  • blastn

tRNA注释

  • 结构特点:三叶草型二级结构。
  • 预测方法:针对二级结构进行检测。使用tRNAscan-SE

功能注释

功能注释:基因功能的注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的蛋白序列和主流的数据库进行blastp比对,完成功能注释。

常用数据库一共有以下几种:NR,KEGG, Uniprot (Swiss-Prot, TrEMBL),InterPro,Go

  1. KEGG
  1. SWISS-PROT和TrEMBL
  • UniProt (Universal Protein Resource)蛋白质序列数据库PIR、SWISS-PROT和TrEMBL统一起来,建立了一个蛋白质数据库。
  • http://www.uniprot.org/
  • blastp
  1. Interpro
  1. GO
  • 基因功能注释数据库(GeneOntology)
  • 三个层面Cellular Component、 Biological Process、 Molecular Function.
  • http://www.geneontology.org/
  • InterProScan

基因组评估

  • BUSCO评估

BUSCO是一款使用python语言编写的对转录组和基因组组装质量进行评估的软件。在相近的物种之间总有一些保守的序列,而BUSCO就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
BUSCO软件根据OrthoDB数据库,构建了几个大的进化分支的单拷贝基因集。将其与该基因集进行比较,根据比对上的比例、完整性,来评价准确性和完整性。

总结

基因组注释

重复注释————RepeatMask, RepeatProteinMask, TRF, LTR-FINDER,repeatmodeler;
结构注释————Denovo注释,同源注释,转录辅助注释;
ncRNA注释————tRNA,rRNA,miRNA,snRNA;
功能注释————NR, KEGG, InterPro,SWISS-PROT,TrEMBL,GO;
基因组评估————BUSCO

### 基因组从头注释的方法与工具 基因组从头注释是指在没有任何已知参考基因组的情况下,通过计算方法预测和描述基因组的功能元件。这一过程通常涉及多个阶段,包括重复序列识别、蛋白质编码基因预测、非编码RNA鉴定以及功能注释等。 #### 1. 数据准备 高质量的输入数据对于成功的基因组注释至关重要。这一步骤可能包括原始测序读取的质量控制、组装后的基因组文件以及其他辅助数据集(如转录组数据)。如果存在转录组数据,则可以利用其提高基因模型预测的准确性[^3]。 #### 2. 预处理:重复序列屏蔽 由于基因组中可能存在大量的重复区域,这些区域可能会干扰后续的基因预测工作流。因此,在正式开始基因预测之前,通常会先使用软件来检测并掩盖掉这些重复片段。常用的工具有 `RepeatMasker` 和 `RepeatModeler`,它们能够基于现有的数据库或者自行构建新的重复单元库来进行筛选。 #### 3. 编码区预测 ##### (a)同源比较法 (Homology-based Prediction) 这种方法依赖于已经经过实验验证过的其他物种中的直系同源基因信息。典型代表程序有 GenBlastA 和 Exonerate 。它适用于目标物种与其近缘种之间共享较多保守特征的情况之下。 ##### (b)从头算法(Ab initio prediction methods) 这类技术仅依靠DNA 序列本身的特性而无需外部证据支持即可做出推测。主要采用隐马尔可夫模型(HMMs),比如 Augustus 或者 GeneMark-ES 等都是此类应用实例之一。 #### 4. 结合多种策略综合评价最佳候选基因集合 为了获得更精确的结果,往往将上述两种不同原理相结合起来形成混合型框架。例如 MAKER-P 就是一个集成平台,允许用户同时运行 ab initio predictors 及 homologous searches ,并通过内部逻辑判断最终保留哪些预测结果作为可信度较高的选项提交给下一步操作。 #### 5. 功能注释 一旦确定了潜在的开放阅读框位置之后,就需要赋予每一个新发现的对象具体生物学意义解释——即所谓“功能性标注”。此环节主要包括但不限于以下几个方面: - 利用 InterProScan 对未知产物执行域匹配查询; - 查询 KEGG Pathway Database 获取代谢途径关联提示; - 进行 GO terms 富集统计分析等等[^1]。 以下是实现部分流程的一个简单 Python 函数示例: ```python import subprocess def run_maker(genome_fasta, est_files=None, protein_files=None): """ 使用MAKER进行基因组注释 参数: genome_fasta -- 输入的基因组fasta文件路径 est_files -- EST序列文件列表(可选) protein_files -- 蛋白质序列文件列表(可选) 返回值: None """ maker_cmd = ["maker"] if est_files is not None and isinstance(est_files,list): for ef in est_files: maker_cmd.extend(["--est",ef]) if protein_files is not None and isinstance(protein_files,list): for pf in protein_files: maker_cmd.extend(["--protein",pf]) maker_cmd.append("--genome={}".format(genome_fasta)) try: result=subprocess.run(maker_cmd,text=True,capture_output=True,check=True) print(result.stdout) except Exception as e: print(f"Error occurred while running MAKER:{e}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值