Augustus注释过程

首先准备好一个你想注释物质近缘的物种基因组,需要其.gff和.fa文件。

gff2gbSmallDNA.pl scipio.gff genome.fa 1000 genes.raw.gb

将其转为genbank文件(如果有这一步可以跳过)。

$etraining --species=generic --stopCodonExcludedFromCDS=false genes.raw.gb 2> train.err

捕捉一些错误的序列。

$cat train.err | perl -pe 's/.*in sequence (\S+): .*/$1/' > badgenes.lst

$filterGenes.pl badgenes.lst genes.raw.gb > genes.gb

提取错误,并进行过滤

$grep -c "LOCUS" genes.raw.gb genes.gb

查看删除了多少个基因,
badgenes.lst为问题基因序列,
genes.gb为没有问题的基因,依然是gb格式。

将序列分组分为检测组和训练组

$randomSplit.pl genes.gb 200

该命令会生成genes.gb.test文件,它包含200条序列(100-200)。
同时会生成genes.gb.trains文件,包含剩下的序列。

$new_species.pl --species=Dicty --AUGUSTUS_CONFIG_PATH=/home/sun/software/Augustus-3.5.0/config

创建名为Dicty的物种,这里也指定了AUGUSTUS_CONFIG_PATH的地址

$etraining --species=Dicty genes.gb.train

这里将进行第一次Training,training所使用的meta parameters是默认值。
使用之前划分出来的test set来检测Trainning的效果Test set的文件为genes.gb.train。

$augustus --species=Dicty genes.gb.test | tee firsttest.out



*******      Evaluation of gene prediction     *******

---------------------------------------------\
                 | sensitivity | specificity |
---------------------------------------------|
nucleotide level |       0.985 |       0.982 |
---------------------------------------------/

----------------------------------------------------------------------------------------------------------\
           |  #pred |  #anno |      |    FP = false pos. |    FN = false neg. |             |             |
           | total/ | total/ |   TP |--------------------|--------------------| sensitivity | specificity |
           | unique | unique |      | part | ovlp | wrng | part | ovlp | wrng |             |             |
----------------------------------------------------------------------------------------------------------|
           |        |        |      |                 98 |                111 |             |             |
exon level |    469 |    482 |  371 | ------------------ | ------------------ |        0.77 |       0.791 |
           |    469 |    482 |      |   65 |    5 |   28 |   65 |    4 |   42 |             |             |
----------------------------------------------------------------------------------------------------------/

----------------------------------------------------------------------------\
transcript | #pred | #anno |   TP |   FP |   FN | sensitivity | specificity |
----------------------------------------------------------------------------|
gene level |   196 |   200 |  131 |   65 |   69 |       0.655 |       0.668 |
----------------------------------------------------------------------------/

------------------------------------------------------------------------\
            UTR | total pred | CDS bnd. corr. |   meanDiff | medianDiff |
------------------------------------------------------------------------|
            TSS |         15 |              0 |         -1 |         -1 |
            TTS |          6 |              0 |         -1 |         -1 |
------------------------------------------------------------------------|
            UTR | uniq. pred |    unique anno |      sens. |      spec. |
------------------------------------------------------------------------|
                |  true positive = 1 bound. exact, 1 bound. <= 20bp off |
 UTR exon level |          0 |              0 |       -nan |       -nan |
------------------------------------------------------------------------|
 UTR base level |          0 |              0 |       -nan |       -nan |
------------------------------------------------------------------------/
nucUTP= 0 nucUFP=0 nucUFPinside= 0 nucUFN=0
# total time: 17.4
# command line:
# augustus --species=Dicty genes.gb.test

1.nucleotide level,sensitivity(预测到的百分率),specificity(其中正确的百分率)
2.exon level, #pred total/unique(预测得到unique外显子总数),#anno total/unique(实际unique外显子总数),TP(正确的预测),FP(假阳性),FN(假阴性)
3.gene level
4.200个基因中,预测到131个
5.77%的外显子被预测到
6.79.1%的外显子预测成功

$optimize_augustus.pl --species=Dicty genes.gb.train

进行持续训练(这个要谨慎,我的20m运行了5天,提升甚微)。

$etraining --species=Dicty genes.gb.filter.train

这里将进行第二次Training,training所使用的meta parameters是学习后的。

$augustus --species=Dicty genes.gb.test | tee secondtest.out

第二次使用检测test进行检测,学习后提高了百分之零点几。

$augustus --species=Dicty ######.fa > augustus.abinitio.gff

使用自己的基因组进行注释。

本文部分参考:

使用MAKER进行基因注释(高级篇之AUGUSTUS模型训练) - 简书 (jianshu.com)

Augustus指南(Trainning部分) - 秒客网 (miaokee.com)

AUGUSTUS - 上海交大超算平台用户手册 Documentation (sjtu.edu.cn)

Augustus指南(Trainning部分) - 南方丙丁 - 博客园 (cnblogs.com)

Predicting Genes with AUGUSTUS (uni-greifswald.de)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值