在进行生物信息分析时,我们很多时候都需要从各种数据库中大量下载基因,蛋白质等数据,而手动下载无疑非常繁琐且浪费时间。为了节约我们金贵的时间,用python爬数据无疑是一个很好的选择,我们今天就介绍一个在linux环境下用来快速地从NCBI上搜索并下载所需序列的python脚本。
1 安装biopython模块包
在Linux环境下,我们可以先在终端直接查看python中已经有的模块包 ···
(base) bcldeiMac:Desktop username$ python
(base) bcldeiMac:Desktop username$ pip list
然后我们会在终端中看到python中所有已经存在的模块包,如果之前已经安装过biopython那就可以直接开始第2步,如果没有biopython那就先安装模块包。因为我是Linux平台,但是我用pip install一直不成功,所以我选择直接在终端进行装包。终端命令是:
sudo easy_install -f http://biopython.org/DIST/ biopython
安装完成后也可以用之前两行命令检查下python模块包列表中是否有biopython。
2 脚本代码
from Bio import Entrez
import os,sys
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.SeqFeature import SeqFeature, FeatureLocation
from Bio import SeqIO
import sys, os, argparse, os.path,re,math,time
‘’‘datab