上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。
一、准备工作
1、 按照上一篇下载fasta文件的步骤,可以同理得到GeneBank的数据格式
mark
2、现在我们的目录结构是这样的
mark
3、安装Biopython,这里有两种方案:
3.1 用pip安装Biopython,在cmd命令窗口输入
下载Python的包管理工具:pip
mark
下载完,解压,进入解压目录
Linux 下输入
sudo python setup.py install
windows 下,在下载目录,Shift+右键
如下图所示,点击在此处打开命令窗口
mark
输入如下命令
python setup.py install
mark
测试是否安装成功,出现下图所示的提示即表示安装成功
pip -v
mark
进入 Pycharm 的Terminal 窗口,输入以下命令来安装 Biopython
pip install biopython
mark
3.2 直接用安装包安装
window系统:
解压
按住shift并点击右键
在菜单栏点击在此处打开命令窗口,并输入如下命令:pyhton stepy.py install
Linux系统:
打开终端 (快捷键:Ctrl+Alt+T)
在终端输入以下命令
$ wget http://biopython.org/DIST/biopython-1.72.tar.gz
$ tar -zxvf biopython-1.72.tar.gz
$ cd biopython-1.72/
$ sudo python setup.py install
测试是否安装成功
$ python
>>> from Bio.Seq import Seq
>>> seq = Seq('ATCG')
>>> seq
Seq('ATCG')
二、Biopython 基础用法
1 读取常见的序列文件格式(fasta,gb)
from Bio import SeqIO
# 读取包含单个序列 Fasta 格式文件
fa_seq = SeqIO.read("res/sequence1.fasta", "fasta")
# print fa_seq
# 读取包含多个序列的 fasta 格式文件
for fa in SeqIO.parse("