文章目录
- 简介
- 安装
- 使用
- 耗时
- 结果
-
- PROKKA_11092023.txt
- PROKKA_11092023.faa:蛋白序列
- PROKKA_11092023.ffn:基因核酸序列,与蛋白序列ID一致
- PROKKA_11092023.fna:拷贝基因组文件
- PROKKA_11092023.fsa:
- PROKKA_11092023.gbk:gbk文件
- PROKKA_11092023.gff:GFF3格式
- PROKKA_11092023.log:运行日志
- PROKKA_11092023.err:报错信息
- PROKKA_11092023.sqn:sqn格式
- PROKKA_11092023.tbl:tbl格式
- PROKKA_11092023.tsv
- 下游分析
- 统计5S/16S/23S/tRNA数量
- 统计基因的数量、位置等信息
- 注意
- 参考
简介
Prokka: rapid prokaryotic genome annotation
全基因组注释是在一组基因组DNA序列中识别感兴趣的特征,并用有用的信息标记它们的过程。Prokka是一款软件工具,可以快速注释细菌、古菌和病毒基因组,并生成符合标准的输出文件。
安装
conda create prokka -c conda-forge -c bioconda -c defaults prokka=1.14
# 1.13版本会报blastp <2.2,实际上已经安装blastp 2.10
-
Test
Type prokka and it should output its help screen.
Type prokka --version and you should see an output like prokka 1.x
Type prokka --listdb and it will show you what databases it has installed to use. -
运行时出现如下报错则重新按照上述命令安装。
[20:43:45] Prokka needs blastp 2.2 or higher. Please upgrade and try again.
使用
prokka contigs.fa
# Look for a folder called PROKKA_yyyymmdd (today's date) and look at stats
prokka --force --outdir mydir --prefix mygenome contigs.fa
time prokka --force --cpu 100 --outdir ecoli_prokka --prefix ecoli ../Ecoli_k12/Ecoli_k12.fasta
# 大肠杆菌8核1min30s,100核50s
- 预测病毒基因
nohup time prokka --force --centre X --compliant --cpus 80 --kingdom Viruses --outdir Viruses_kingdom --prefix
../Viral_prediction/Virsorter_Virfinder_Deepvirfinder_share_at_least_two_method.fa &>prokka.log&
nohup time prokka --cpus 80 --kingdom Viruses --outdir Viruses_kingdom ../Viral_prediction/Virsorter_Virfinder_Deepvirfinder_share_at_least_two_method.fa &>prokka.log&
Contig ID must <= 37 chars long: k141_4519235_length_122628_cov_55.0330
- 默认使用Barrnap 预测rRNA
–rnammer Prefer RNAmmer over Barrnap for rRNA prediction (default OFF)
耗时
原核生物基因组在1-10min之内完成,平均在3min;
10015个基因组同时并行20个任务,平均耗时1.77m,总耗时1141m51.958s.
结果
PROKKA_11092023.txt
organism: Genus species strain
contigs: 628
bases: 4038506
CDS: 3936
gene: 3979
rRNA: 1
tRNA: 41
tmRNA: 1
PROKKA_11092023.faa:蛋白序列
>CBEGICMN_00001 hypothetical protein
MKTIASWLFALGGLFMGSPACAGAIDAGRLATVDAHALAATVQSEVTILSLAQYLGAGAS
SDVEKARAVYRWVADRIAYDAKSFFNQTHPSVDPNAVFQSRLAACGGYAALFERVAKESG
LEATTIIGYAKGIAHIAGGSMAEPNHAWNAVKIDGKWQLIDTTWGSGYVSDGAYVKQFSE
TFFLPSPEQLAFSHFPQDAAWQLRSERSLSKTEFESLPEINTAFFNLGIDPSDVWKTVKS
QEFKGALVHTFDLPAGVAKVRNAPLSYQLPVGSTQHFEIVSASFEKMAVEYNKKWLPMQK
KGDVFSIEIAAKSKGELSVNGKTPTSRKHATVLEYIVD
>CBEGICMN_00002 hypothetical protein
MSPVPSNAADSPLDETPESLTPQEFDEIDAILDDLRTRYDETPHWEFCEGFMAALICCRR
LIMPSEYLPELLALGVNGEVDEGSFADDAQFNRFMALWARRWNEVAHALNAKIENLGDEA
PROKKA_11092023.ffn:基因核酸序列,与蛋白序列ID一致
>CBEGICMN_00001 hypothetical protein
ATGAAGACGATCGCTTCCTGGCTCTTTGCCTTGGGCGGATTGTTCATGGGTAGCCCTGCT
TGCGCTGGCGCTATTGATGCTGGCCGCCTTGCCACCGTTGATGCCCACGCCTTGGCCGCG
ACCGTTCAATCTGAAGTGACGATTCTGTCCCTTGCGCAGTATCTCGGCGCGGGGGCTAGT
AGCGATGTTGAAAAAGCCCGCGCGGTATATCGTTGGGTCGCGGATCGCATTGCCTACGAT
GCCAAGAGCTTTTTTAACCAAACACACCCAAGCGTTGATCCTAATGCCGTATTCCAATCG
CGCCTTGCAGCCTGCGGCGGTTACGCTGCATTGTTCGAGCGCGTTGCCAAGGAGTCCGGG
TTGGAGGCTACCACCATTATTGGCTATGCGAAAGGCATTGCCCACATAGCCGGAGGTAGC
ATGGCCGAGCCGAATCATGCTTGGAATGCTGTAAAAATTGACGGCAAGTGGCAGCTCATT
GACACGACCTGGGGCAGTGGTTACGTAAGCGATGGTGCCTATGTAAAGCAGTTCAGCGAA
PROKKA_11092023.fna:拷贝基因组文件
>gnl|X|CBEGICMN_1
CCGCCAGCCTGAGCCCTATTGATGTGCACTTCGCTATTGCAATCCGACAGAAAAGTTATG
GCGCCATTTTCCGATCAGAACAAAGCACGAAAAGAAGAGAATGACTTGTTAGCCGGCAAC
PROKKA_11092023.fsa:
>gnl|X|CBEGICMN_1 [gcode=11] [organism=Genus species] [strain=strain]
CCGCCAGCCTGAGCCCTATTGATGTGCACTTCGCTATTGCAATCCGACAGAAAAGTTATG
GCGCCATTTTCCGATCAGAACAAAGCACGAAAAGAAGAGAATGACTTGTTAGCCGGCAAC
PROKKA_11092023.gbk:gbk文件
LOCUS CBEGICMN_1 140756 bp DNA linear 09-11月-2023
DEFINITION