叶绿体基因组注释-Geseq篇

叶绿体基因组注释

基因组注释和基因组组装是叶绿体分析中十分重要的两个工作,是所有后续分析的基础。所以一定要拿到正确的注释文件之后再开始做分析。
目前常用的软件有Geseq、PGA、CPGAVAS2,没使用过CPGAVAS2,因此本篇文章先主要讨论一下Geseq,后续在讨论下PGA注释。

Geseq

需要准备的文件有上一步组装得到的fasta文件,和下载的参考文件。Geseq注释用法
然后点击Submit 等待两分钟即可得到Geseq注释结果
Genbank结果
下载并以文本方式打开该genbank文件。

Gesq注释结果 vs NCBI结果

Geseq

Geseq问题

NCBI

在这里插入图片描述
相比于NCBI, Geseq注释结果中多了 /info、/annotator、exon 和 intron等信息。 我比较喜欢看NCBI格式,所以一般都会用正则表达式把这部分信息删除。
Geseq注释问题
如上图ndhB基因的注释,Geseq会注释出来两个CDS,原因是第一个外显子的结尾143112和第二个外显子的开始143767处的碱基相同 都是"G"。因此软件无法确定哪个是对的,所以给出了两个CDS的结果。这样就需要我们手动进行验证哪个是对的。一般CDS中外显子的长度都是3的倍数,所以可以根据这个做判断。
比较特殊的基因有两类
1反式剪切基因rps12RNA编辑基因如psbL等。
rps12基因
rps12基因
rps12基因在重复区各有两个外显子,而又共用LSC中的一个外显子。注释的时候需要加以调整。也要在rps12基因中加入 /trans_splicing
RNA编辑 基因
RNA编辑基因

psbL等基因经常会出现非*TG作为起始密码序列如本次注释中其为 ACG,这中情况需要在CDS里面加上 /exception=“RNA editing”
较正完成之后,验证注释结果的准确性,可以自己编写脚本,比如比较好用的biopython/bioperl包等或者使用Geseq进行检查。比如找出CDS长度不是3的倍数的基因或序列中间有终止密码子的基因等

写在结尾

叶绿体基因组组装和注释是所有分析的基础,一定要在保证这两个文件正确的情况下,再进行后续的分析。公司分析的结果也不一定是准确的,拿到公司的结果后,我们也要自己分析一遍。
公众号图片

  • 18
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值