python生物信息分析_Python + 生物信息 02 ：Biopython 分析序列

最新推荐文章于 2024-08-03 15:06:30 发布

weixin_39723248

最新推荐文章于 2024-08-03 15:06:30 发布

阅读量984

点赞数

文章标签： python生物信息分析

Biopython 做序列分析

一、安装Biopython：如果环境已经有Biopython可以跳过这一步。这里有两种安装方案，一种通过pip快速安装，另一种通过安装包安装

1. 用pip安装Biopython，在cmd命令窗口输入下载Python的包管理工具：pip下载完，解压，进入解压目录Linux 下输入

sudo python setup.py installwindows 下，在下载目录，Shift+右键

如下图所示，点击在此处打开命令窗口

输入如下命令

python setup.py install

测试是否安装成功，出现下图所示的提示即表示安装成功

pip -v

进入 Pycharm 的Terminal 窗口，输入以下命令来安装 Biopython

pip install biopython

2. 直接用安装包安装

window系统：解压

按住shift并点击右键

在菜单栏点击在此处打开命令窗口，并输入如下命令：pyhton stepy.py install

Linux系统：打开终端 (快捷键：Ctrl+Alt+T)

在终端输入以下命令

$ wget http://biopython.org/DIST/biopython-1.72.tar.gz

$ tar -zxvf biopython-1.72.tar.gz

$ cd biopython-1.72/

$ sudo python setup.py install

测试是否安装成功

$ python

>>> from Bio.Seq import Seq

>>> seq = Seq('ATCG')

>>> seq

Seq('ATCG')

二、Biopython 基础用法

1 读取常见的序列文件格式(fasta，gb)

from Bio import SeqIO

# 读取包含单个序列 Fasta 格式文件

fa_seq = SeqIO.read("res/sequence1.fasta", "fasta")

# print fa_seq

# 读取包含多个序列的 fasta 格式文件

for fa in SeqIO.parse("res/multi.fasta", "fasta"):

print (fa.seq)

# 一个多序列文件中的所有序列

seqs = [fa.seq for fa in SeqIO.parse("res/multi.fasta", "fasta")]

print (seqs)

# 如果不想要seq对象中的字母表，可以用str()来强制类型转换

seqs = [str(fa.seq) for fa in SeqIO.parse("res/multi.fasta", "fasta")]

print (seqs)

# 读取包含单个序列的 gb 格式文件

gb_seq = SeqIO.read("res/sequence1.gb", "genbank")

print (gb_seq)

2 浏览 fasta 序列文件内容

from Bio import SeqIO

# 读取包含单个序列 Fasta 格式文件

fa_seq = SeqIO.read("res/sequence1.fasta", "fasta")

# =====获取详细的信息=====

# 提取基因ID，name

# Fasta 文件中序列名所在行的第一个词被作为 id 和 name

print ("id: ", fa_seq.id)

print ("name: ", fa_seq.name)

# 基因 Description 是fasta文件格式中的第一行

print ("description: ", fa_seq.description)

# 序列

print ("seq: ", fa_seq.seq)

# 序列来源库信息(NCBI的数据库信息会包括数据库交叉引用)

print ("dbxrefs: ", fa_seq.dbxrefs)

# 全部序列的注释信息

print ("annotations: ", fa_seq.annotations)

# 序列中每个字母的注释信息

print ("letter_annotations: ", fa_seq.letter_annotations)

# 部分序列的注释信息

print ("features: ", fa_seq.features)

3 浏览 genebank 序列文件内容

from Bio import SeqIO

# 读取包含单个序列的 gb 格式文件

gb_seq = SeqIO.read("res/sequence1.gb", "genbank")

print (gb_seq)

# =====获取详细的信息=====

# 提取基因ID，name

# gb文件中序列名包含比fasta更加详细的序列信息，下面分别是 id 和 name

print ("id: ", gb_seq.id)

print ("name: ", gb_seq.name)

# 基因 Description 是fasta文件格式中的第一行

print ("description: ", gb_seq.description)

# 序列信息, 这里的序列信息是以 bioPython 中的seq对象存储

print ("seq: ", gb_seq.seq)

# 序列来源库信息(NCBI的数据库信息会包括数据库交叉引用)

print ("dbxrefs: ", gb_seq.dbxrefs)

# 全部序列的注释信息

print ("annotations: ", gb_seq.annotations)

# 序列中每个字母的注释信息

print ("letter_annotations: ", gb_seq.letter_annotations)

# 部分序列的注释信息,SeqFeature 对象的形式保存了features table中的所有entries(如genes和CDS等)

print ("features: ", gb_seq.features)

# 该基因的物种信息

print ("organism: ", gb_seq.annotations["organism"])

# 关于序列的注释信息，相关数据库的交叉引用号

print ("comment: ", gb_seq.annotations["comment"])

# 序列来源的物种名

print ("source: ", gb_seq.annotations["source"])

# 该基因的分类学信息

print ("taxonomy: ", gb_seq.annotations["taxonomy"])

# 该基因的整理后的注释信息

print ("structured_comment: ", gb_seq.annotations["structured_comment"])

# 该基因序列相关的关键词

print ("keywords: ", gb_seq.annotations["keywords"])

# 该基因的相关文献编号，或递交序列的注册信息

print ("references: ", gb_seq.annotations["references"])

# 该基因的入库时，给的基因编号，以及在染色体上的位点信息

print ("accessions: ", gb_seq.annotations["accessions"])

# 该基因的分子类型，一般为 DNA

print ("molecule_type: ", gb_seq.annotations["molecule_type"])

# 该基因的数据文件划分方式

print ("data_file_division: ", gb_seq.annotations["data_file_division"])

# 基因发布时间

print ("date: ", gb_seq.annotations["date"])

# 该基因的更新版本

print ("sequence_version: ", gb_seq.annotations["sequence_version"])

# 该基因的拓扑结构

print ("topology: ", gb_seq.annotations["topology"])相信大家可以看到 GeneBank 比 fasta 格式更加详细和贴心，但是对于序列处理来说内存占用和运行时间比这些信息更加重要。这就使fasta成为我们一般在序列分析中常用的格式。

4 新建序列文件

from Bio.Seq import Seq

# 新建一个DNA序列对象

dna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)

# 新建一个RNA序列对象

rna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_rna)

# # 新建一个蛋白质序列对象

protein_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.protein)

序列对象由一段字符串和其对应的编码表所定义。我们可以从上述的代码中看到，字符串内容一样，唯一不同的就是第二个参数IUPAC值不一样。IUPAC (International Union of Pure and Applied Chemistry ) 是一个制定化学相关标准的组织，Biopython 所使用的编码表就是由它制定的，想了解详细细节可以参考http://www.bioinformatics.org/sms2/iupac.html ，详细定义如下：

名称编码表ambiguous_dna_lettersGATCRYWSMKHBVDNunambiguous_dna_lettersGATCambiguous_rna_lettersGAUCRYWSMKHBVDNunambiguous_rna_lettersGAUCproteinARNDCQEGHILKMFPSTWYV

5 修改序列文件

在生物学意义上，序列是不可以随便更改的，也就是不可变的。如果强行修改，那么就会报错TypeError: 'Seq' object does not support item assignment

dna_seq[0] = "G"

如果你执意修改也是可以的，但是不建议这么做

dna_seq_mutable = dna_seq.tomutable()

dna_seq_mutable[0] = "G"

6 操作序列文件

from Bio.Seq import Seq

# 新建一个DNA序列对象

dna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)

# 序列信息

print ("Sequence: ", dna_seq)

# 序列长度

print ("Length : ", len(dna_seq))

# 单个核苷酸计数

print ("G Counts: ", dna_seq.count("G"))

# 获取反向序列

print ("reverse: ", dna_seq[::-1])

# 获取反向互补序列

print ("Reverse complement: ", dna_seq.complement())

# 获取蛋白质的反向互补序列，这里显然是报错的，因为蛋白序列没有这一属性

print ("Protein reverse complement: ", protein_seq.complement())

7 用 Biopython 将 DNA 翻译为 RNA

# =====转录=====

# 如果序列为编码链，那么直接转换

print ("rna: ", dna_seq.transcribe())

# 如果序列为模板链，就需要先转为编码链

transcribe_seq = dna_seq.reverse_complement().transcribe()

print ("rna: ", transcribe_seq)

8 用BioPython 将 RNA 翻译为蛋白质

# =====翻译=====

print ("protein: ", transcribe_seq.translate())

# 如果翻译的是线粒体密码子，那么在参数中需要输入，其他参考 https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c or ftp://ftp.ncbi.nlm.nih.gov/entrez/misc/data/gc.prt

print ("protein: ", transcribe_seq.translate(table="Vertebrate Mitochondrial"))

# 在现实生物世界中，一般在遇到终止密码子之后的序列不用翻译

print ("protein: ", transcribe_seq.translate(table="Vertebrate Mitochondrial", to_stop=True))

# 如果DNA序列为编码序列，可以直接翻译，DNA序列不是3的倍数时，报错

print ("protein: ", dna_seq.translate())

# 在细菌世界中，在细菌遗传密码中 GTG 是个有效的起始密码子，注意第一个密码子(正常情况下 GTG编码缬氨酸，但是如果作为起始密码子，则翻译成甲硫氨酸)

bacterial_dna = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCATAA", generic_dna)

print ("protein: ", bacterial_dna.translate(table="Bacterial", to_stop=True))

print ("protein: ", bacterial_dna.translate(table="Bacterial", cds=True))

7 做一些有意思的事

# =====寻找TATA框=====

# TATA框约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处，基本上由A-T碱基对组成，是决定基因转录始的选择，为RNA聚合酶的结合处之一

print ("TA Counts: ", dna_seq.count("TA"))

# =====GC含量=====

# (A+T)/(G+C)之比随DNA的种类不同而异。GC含量愈高，DNA的密度也愈高，同时热及碱不易使之变性，因此利用这一特性便可进行DNA的分离或测定。

print ("GC Contenten", 100 * float(dna_seq.count("G") + dna_seq.count("C")) / len(dna_seq))

# =====得到promoter序列=====

# 在寻找基因的promoter时(一般promoter的位点不确定)，但是可以通过将起始位点左右2kb基因视为promoter

# 这里训练切取，将切取设起始位点为前10bp

print ("Promoter seq: ",dna_seq[:10])

weixin_39723248

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫