今天有客户联系要通过GenBank的accession number批量下载基因组,结果回复客户可以批量下载后,客户就没再回复过。。。
这个功能之前就想写,只是觉得用的可能不是很多,就没写。既然今天遇到了,恰巧最近着重学shell脚本,就把这个功能封了个shell脚本。用到的shell知识点都还算基础,也是必学的,下面介绍了脚本的特点和功能,感兴趣脚本写法的也可以购买来看看。
脚本特点
这里写了两个版本,两个版本都加了中文注释。v0.1没有写函数,方便大家理解。v0.2写了函数,支持多个参数输入,用着方便。
对于GenBank(GCA开头)和RefSeq(GCF开头)的基因组ID类似,存储方式也类似,这里就一起写了,两种编号均支持。
v0.1版本
- 只是简单的顺序传参脚本,并未使用长/短选项写法。
主要是为了方便,而且这种写法对初学者也是很友好的。
-
只适合下载单个编号的基因组
-
可根据RefSeq 或者GenBank的基因组编号下载该基因组相关内容,包括基因组序列、蛋白序列注释信息(如果有)、其它文件和md5文件。
-
脚本最终只是打印了可用的下载命令,并未直接下载。
打印出下载命令与一些提示信息:通过标准误重定向,即>&2
将除最终下载命令行以外的所有信息都设置为标准误。
-
下载目标文件夹为当前目录,即
./
。