NCBI基因组下载工具(最终版?)

NCBI基因组下载工具

搁置了很久的项目,趁着最近有空终于把它给做完了,完结撒花🌸
项目链接如下,在Linux系统下运行最佳(Mac可能在使用Rsync会有问题)
NCBI genome download tool-gitcode

该脚本便于从 NCBI Genank/Refseq 上批量下载基因组数据,可以根据需求选择下载格式,采用Rsync工具并行下载。

用法/示例

bash download.sh $1 $2 $3
#$1:IDtable.txt
#$2: Output file folder name
#$3: Database (GenBank--GB, Refseq--Ref)
#Example
bash download.sh IDtable.txt Test Ref

流程

1.预处理:从 NCBI 上下载得到 IDtable 文件

  • 进入NCBI Assembly 网站 (https://www.ncbi.nlm.nih.gov/assembly/) 搜索需要批量下载的物种名称 (e.g. Escherichia coli,Viruses)
    在这里插入图片描述

  • 选择左侧 Status 以及 Assembly level 选中数据范围
    在这里插入图片描述

  • 点击中央上方Send to,勾选 fileID Table (text),点击 Create File 下载文件得到IDtable.txt(建议:修改下载的文件名称)
    在这里插入图片描述
    在这里插入图片描述

  • 检查下载的数据(NA 表示没有对应的数据)

GenBank Assembly ID (Accession.version)GenBank release IDRefSeq Assembly ID (Accession.version)RefSeq release ID
GCA_000500165.1863668GCF_000500165.1863898
GCA_000500185.1863688GCF_000500185.1864078
GCA_000523875.1897338N/AN/A
GCA_000280655.1401628GCF_000280655.1621018

2.使用download.sh下载数据

bash download.sh IDtable.txt Test Ref

该脚本以IDtable.txt中的Assembly ID为输入对象(GCA_000500165.1),采用 rsync 工具批量下载 NCBI FTP(https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/500/165/GCA_000500165.1_MAB_082312_2258/) 上对应的氨基酸序列(_genomic.fna.gz)以及基因组注释文件(_genomic.gbff.gz)
在这里插入图片描述

输出文件

运行后会得到一个含有下载数据的文件夹,context 文本和 log 文本,其中 context 为 rsync 下载链接,log 记录NCBI数据库中对应物种的基因组是否含有相关数据类型文件,便于排查。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值