GenBank (*.gb, *.gbk, *.gbff) 格式转 GFF (*.gff)格式

  • GenBank 格式是 NCBI 开发的一种能同时包含序列信息和注释信息的文件格式,一般后缀为 .gbff。

NCBI Genome 中 GBFF 的下载选项标题
  • GFF 格式是更为通用的基因结构注释文件格式,一般仅包含基因结构的位置信息,常见后缀为 .gff、.gff3 。

  • 在网上找了一圈,感觉将 GenBank 格式转为 GFF 格式的现成工具并不多,有一个是 genbank_to,但是用下来感觉出来的格式不太好,出来的 GFF 格式仍然包含序列信息,而且缺少父母(Parent)关系,无法输入到 gffread 中使用。

  • 用 BioPython 是一个不错的选择,保存的格式可以更加个性化,但是需要一定的编程基础;最终下来发现还是用 BioPerl 的bp_genbank2gff3.pl脚本来转换出来的格式比较满意。

标题 BioPerl 转换出来的 GFF 格式
  • 使用方法(这里使用 Conda 安装,不需要倒腾 Perl)

# 建议新建一个环境来安装 BioPerl, 装在 base 容易出问题
mamba create -n Perl perl-bioperl perl-yaml

# 从 CPAN 官网下载脚本
wget https://fastapi.metacpan.org/source/CJFIELDS/BioPerl-1.7.8/bin/bp_genbank2gff3 -O bp_genbank2gff3.pl

# 进入 Conda 环境使用
conda activate Perl

perl bp_genbank2gff3.pl your_genbank_file.gbff
# 运行完成后会在相同位置生成一个 gff 文件

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值