真核基因组注释导读

本文概述了真核基因组注释的过程,包括基因组组装质量评估、基因预测与注释的区别、重复序列鉴定、证据比对、ab initio与evidence-driven预测的整合,以及注释阶段的工具应用。强调了重复序列鉴定的重要性以及基因注释的复杂性和挑战。
摘要由CSDN通过智能技术生成

前言


   二代测序以及最近三代单分子测序的火热,让我们获得高质量基因组越来越来容易,然而基因组注释仍然面临许多挑战。其中一个挑战就是寻找基因(gene finding),训练基因model,选择基因预测软件和注释软件,另一个挑战就是更新合并不同途径注释的基因,目前还没有完美的解决方法,但流行的RNA-seq 数据能够极大程度的帮助我们校准基因。基因组注释不是简单的点击几下鼠标就能够完成的,然而现在有很多工具帮助我们更好的注释基因组。


基因组组装 (Genome assemblies)

  进行基因组注释之前,需要对组装的基因组进行质量评估,查看是否可以用来进行基因组注释,继而获得可信的注释结果。有3个指标可以衡量组装的质量。
* Scaffold and contig N50s
* Percent gaps
* Percent coverage
   CEGMA提供了另外一种评估方案。CEGMA筛选收集了一些很保守的单拷贝基因(这些基因可以看做在每个真核物种里都存在),这样我们可以通过计算存在于目前的组装版本的基因数目来衡量组装基因组的完整性。


基因组注释

插播一下,基因注释与基因预测的关系
  • gene predictors find the single most likely coding sequence (CDS) of a gene and do not report untranslated regions (UTRs) or alternatively spliced variants. Gene prediction is therefore a somewhat misleading term. A more accurate description might be ‘canonical CDS prediction’.

  • Gene annotations, conversely, generally include UTRs, alternative splice isoforms and have attributes such as evidence trails.

The figure shows a genome annotation and its associated evidence.

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值