ncbi查找目的基因序列_用python实现NCBI批量下载基因序列！好像就没有python做不到的！...

最新推荐文章于 2024-08-25 17:34:39 发布

weixin_39824033

最新推荐文章于 2024-08-25 17:34:39 发布

阅读量2k

点赞数 3

文章标签： ncbi查找目的基因序列

本文链接：https://blog.csdn.net/weixin_39824033/article/details/112319185

版权

本文介绍了如何使用Python脚本在Linux环境下快速从NCBI数据库中搜索并批量下载基因序列。首先，需要安装biopython模块包，然后编写包含搜索条件、布尔运算符和索引构建器的脚本。通过指定搜索数据库、输出格式、输出目录和文件名前缀，可以灵活控制下载过程。示例中展示了不同类型的搜索和运算符的使用，最终成功获取了8个基因家族的fasta文件。

摘要由CSDN通过智能技术生成

在进行生物信息分析时，我们很多时候都需要从各种数据库中大量下载基因，蛋白质等数据，而手动下载无疑非常繁琐且浪费时间。为了节约我们金贵的时间，用python爬数据无疑是一个很好的选择，我们今天就介绍一个在linux环境下用来快速地从NCBI上搜索并下载所需序列的python脚本。

1 安装biopython模块包

在Linux环境下，我们可以先在终端直接查看python中已经有的模块包 ···

(base) bcldeiMac:Desktop username$ python
(base) bcldeiMac:Desktop username$ pip list

然后我们会在终端中看到python中所有已经存在的模块包，如果之前已经安装过biopython那就可以直接开始第2步，如果没有biopython那就先安装模块包。因为我是Linux平台，但是我用pip install一直不成功，所以我选择直接在终端进行装包。终端命令是：

sudo easy_install -f http://biopython.org/DIST/ biopython

安装完成后也可以用之前两行命令检查下python模块包列表中是否有biopython。

2 脚本代码

from Bio import Entrez
import os,sys
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.SeqFeature import SeqFeature, FeatureLocation
from Bio import SeqIO
import sys, os, argparse, os.path,re,math,time
‘’‘datab

最低0.47元/天解锁文章

weixin_39824033

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫