简介
Prokka: rapid prokaryotic genome annotation
全基因组注释是在一组基因组DNA序列中识别感兴趣的特征,并用有用的信息标记它们的过程。Prokka是一款软件工具,可以快速注释细菌、古菌和病毒基因组,并生成符合标准的输出文件。
安装
conda create prokka -c conda-forge -c bioconda -c defaults prokka=1.14
# 1.13版本会报blastp <2.2,实际上已经安装blastp 2.10
-
Test
Type prokka and it should output its help screen.
Type prokka --version and you should see an output like prokka 1.x
Type prokka --listdb and it will show you what databases it has installed to use. -
运行时出现如下报错则重新按照上述命令安装。
[20:43:45] Prokka needs blastp 2.2 or higher. Please upgrade and try again.
使用
prokka contigs.fa
# Look for a folder called PROKKA_yyyymmdd (today's date) and look at stats
prokka --force --outdir mydir --prefix mygenome contigs.fa
time prokka --force --cpu 100 --outdir ecoli_prokka --prefix ecoli ../Ecoli_k12/Ecoli_k12.fasta
# 大肠杆菌8核1min30s,100核50s
- 预测病毒基因
nohup time prokka --force --centre X --compliant --cpus 80 --kingdom Viruses --outdir Viruses_kingdom --prefix
../Viral_prediction/Virsorter_Virfinder_Deepvirfinder_share_at_least_two_method.fa &>prokka.log&
nohup time prokka --cpus 80 --kingdom Viruses --outdir Viruses_kingdom ../Viral_prediction/Virsorter_Virfinder_Deepvirfinder_share_at_least_two_method.fa &>prokka.log&
Contig ID must <= 37 chars long: k141_4519235_length_122628_cov_55.0330
- 默认使用Barrnap 预测rRNA
–rnammer Prefer RNAmmer over Barrnap for rRNA prediction (default OFF)
耗时
原核生物基因组在1-10min之内完成,平均在3min;
10015个基因组同时并行20个任务,平均耗时1.77m,总耗时1141m51.958s.
下游分析
*.txt总结文件
该文件是基因类型及数量总结文件,详细如下:
(multiqc) [yut@node05 4622GGG_genomes_prokka]$