组装好基因组后之预测基因

预测基因
给定一段fasta格式序列,如何预测其中的基因呢?首先需要判断该片段来自原核生物,真核生物还是病毒序列。如果是原核生物,基因结构比较简单,可以直接使用prodigal或者glimmer3工具进行预测。直接将fasta格式序列输入给软件即可。

prodigal -a ref.pep -d ref.cds -f gff -g 11 -o ref.gff -s ref.stat -i ref.fna >prodigal.log
-i:输入文件,fasta格式
-o:输出结果文件,有多种格式可选
-f:输出文件类型gbk, gff, or sco
-d:基因的核酸序列
-a:基因的氨基酸序列
-g:密码子表,细菌为第11
-p:模式,单菌还是宏基因组
-s:统计信息
如果是真核生物,可以使用augustus或者snap工具进行预测。

#真核生物基因预测
augustus --strand=both --genemodel=partial --singlestrand=false --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --alternatives-from-evidence=true --gff3=on --UTR=on --outfile=out.gff --species=human HS04636.fa
14 基因功能注释
给定一个基因序列,fasta格式的氨基酸序列,如何得到基因的功能信息?可以使用eggnog-mapper进行分析。

emapper.py -i gene.fasta --output polb_bact -d bact --data_dir eggnog-mapper-1.0.3/data/
-i:输入文件,基因的氨基酸序列
-m:选择运行模式hmmer或者diamond
-h:输出帮助文档
–output:输出结果前缀
–output_dir:输出结果目录
–data_dir:数据库目录
–database:单独指定数据库
–dmnd_db:单独指定diamond数据库路径

预测rRNA
给定一段序列,如何找到其中的核糖体RNA,也就是rRNA,包括原核生物的5S,16S,23S,真核生物的5.8S,18S,28SRNA等,由于核糖体RNA具有很高的保守性,因此,预测准确性较高。使用rnammer或者barrnap 软件or使用Infernal基于数据库rfam软件,直接输入fasta序列即可。

rnammer -S bac -m tsu,lsu,ssu -gff ref.gff -f ref.frn ref.fna
-S:物种类型,古细菌,细菌或者真菌
-m:需要rRNA类型,如果真要16S,则单独选择lsu
-gff:输出gff格式结果
-f:输出fasta格式序列

预测tRNA
给定一段序列,如何找到其中的转运RNA,也就是tRNA,可以使用tRNAscan工具,直接输入序列即可。

tRNAscan-SE -B -o tRNAScan.out -f tRNAScan.out.structure -m stat.list ref.fna
-B :物种为细菌
-A :物种为古细菌
-O :输入序列为细胞器
-G :包括全部类型
-o:输出结果
-f:tRNA二级结构
-m:统计结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值