-
GenBank 格式是 NCBI 开发的一种能同时包含序列信息和注释信息的文件格式,一般后缀为 .gbff。

-
GFF 格式是更为通用的基因结构注释文件格式,一般仅包含基因结构的位置信息,常见后缀为 .gff、.gff3 。
-
在网上找了一圈,感觉将 GenBank 格式转为 GFF 格式的现成工具并不多,有一个是 genbank_to,但是用下来感觉出来的格式不太好,出来的 GFF 格式仍然包含序列信息,而且缺少父母(Parent)关系,无法输入到 gffread 中使用。
-
用 BioPython 是一个不错的选择,保存的格式可以更加个性化,但是需要一定的编程基础;最终下来发现还是用 BioPerl 的bp_genbank2gff3.pl脚本来转换出来的格式比较满意。

-
使用方法(这里使用 Conda 安装,不需要倒腾 Perl)
# 建议新建一个环境来安装 BioPerl, 装在 base 容易出问题
mamba create -n Perl perl-bioperl perl-yaml
# 从 CPAN 官网下载脚本
wget https://fastapi.metacpan.org/source/CJFIELDS/BioPerl-1.7.8/bin/bp_genbank2gff3 -O bp_genbank2gff3.pl
# 进入 Conda 环境使用
conda activate Perl
perl bp_genbank2gff3.pl your_genbank_file.gbff
# 运行完成后会在相同位置生成一个 gff 文件