ncbi查找目的基因序列_用python实现NCBI批量下载基因序列!好像就没有python做不到的!...

本文介绍了如何使用Python脚本在Linux环境下快速从NCBI数据库中搜索并批量下载基因序列。首先,需要安装biopython模块包,然后编写包含搜索条件、布尔运算符和索引构建器的脚本。通过指定搜索数据库、输出格式、输出目录和文件名前缀,可以灵活控制下载过程。示例中展示了不同类型的搜索和运算符的使用,最终成功获取了8个基因家族的fasta文件。
摘要由CSDN通过智能技术生成

在进行生物信息分析时,我们很多时候都需要从各种数据库中大量下载基因,蛋白质等数据,而手动下载无疑非常繁琐且浪费时间。为了节约我们金贵的时间,用python爬数据无疑是一个很好的选择,我们今天就介绍一个在linux环境下用来快速地从NCBI上搜索并下载所需序列的python脚本。

1 安装biopython模块包

在Linux环境下,我们可以先在终端直接查看python中已经有的模块包 ···

(base) bcldeiMac:Desktop username$ python
(base) bcldeiMac:Desktop username$ pip list

9e43323d795f34a64b0fb99c1f208241.png

2dd545729dbe9a46970d2ca4312fc6c9.png

然后我们会在终端中看到python中所有已经存在的模块包,如果之前已经安装过biopython那就可以直接开始第2步,如果没有biopython那就先安装模块包。因为我是Linux平台,但是我用pip install一直不成功,所以我选择直接在终端进行装包。终端命令是:

sudo easy_install -f http://biopython.org/DIST/ biopython

安装完成后也可以用之前两行命令检查下python模块包列表中是否有biopython。

2 脚本代码

from Bio import Entrez
import os,sys
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.SeqFeature import SeqFeature, FeatureLocation
from Bio import SeqIO
import sys, os, argparse, os.path,re,math,time
‘’‘datab
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值