从基因组注释说起

  N年前测序还是问题,基因组的解读排在后边,现如今,测序已然不是问题, 成百上千的基因组被测序,这么多的基因组需要解读还真不是件容易的事。以前高大上的工作,注定要飞入寻常百姓家。开发出易用且准确度高的注释工具就很迫切了。
  首先来说说编码蛋白基因的注释。真核生物的基因往往具有内含子,不像原核生物那样方便对于编码基因的注释现在有很多工具了,今天要说的是maker-P这款工具,当然这款工具内置了几款基因预测工具,SNAP, augustus,fgenesh,gmhmm,以及整合工具evm等。当然也可以直接根据转录本或蛋白序列生成基因model,再行预测
  首先还是重复的鉴定和mask, 今天先不讨论这个,主要想说说编码基因的注释。准备转录本以及蛋白fasta文件,当然也可以是与基因组比对好的gff文件,蛋白可以使用同源物种的,蛋白的比对建议使用spaln这款软件,这是一款相当给力的软件,就是给的说明比较罗嗦,需要花点时间去摸索条件。转录本序列可以是来自RNA-seq的,EST,或者三代测序的等
  如果物种还没有gene model,首先需要训练一个model。maker可以训练model供snap使用,训练好之后,使用snap预测,然后根据预测的序列继续训练,基本重复3次就可以了。详细的参数请见Genome Annotation and Curation Using MAKER and MAKER-P
  补充一点,想要获得比较精确的注释结果,仍需要人工去校对一些与转录本有冲突的基因model

本来想写个详细的教程,写着写不下去了,不如人家原文的好,有兴趣的可以参见上述文章,甚至私下交流。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基因组注释文件(GTF)是一种用于描述基因组上的基因、转录本和外显子等注释信息的文件格式。GTF文件通常与基因组序列文件一起使用,用于帮助研究者理解基因组的组成和功能。 GTF文件的结构很简单明了,每一行都代表一个注释区域(feature)。每行包含了一系列字段,用制表符分隔开,依次包括染色体名称、源(即生成该注释的程序或数据库)、注释区域的类型、起始位置、终止位置、分数、方向、相位和其他一些属性等信息。通过这些字段,我们可以了解到基因和转录本在染色体上的位置,并且对于非编码RNA、外显子和剪接变体等也能做到详细描述。 GTF文件的重要性在于它提供了关键的信息,可以用于多种生物信息学研究任务。例如,研究者可以利用GTF文件的基因和转录本注释信息,对已知的基因进行注释,或者对全新的基因进行预测。此外,GTF文件还可以用于分析基因的发育、表达和调控过程,帮助我们理解基因组的功能。 然而,需要注意的是,GTF文件仅仅是基因组注释的一部分,它并不能提供关于表达水平、蛋白质结构和功能的直接信息。因此,在进行基因组研究时,还需要结合其他实验数据,如RNA测序和质谱数据等,来进一步验证和研究基因组的功能。 总而言之,基因组注释文件(GTF)提供了基因、转录本和外显子等注释信息的描述,是生物信息学研究中不可或缺的一部分。通过分析GTF文件,我们可以加深对基因组的理解,并在基因组研究中发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值