Biopython序列是指一系列字母,用于表示生物体的蛋白质,DNA或RNA。它由Seq类表示。Seq类在Bio.Seq模块中定义。
下面来看看如何在Biopython中创建一个简单的序列,如下所示:
>>> from Bio.Seq import Seq
>>> seq = Seq("AGCT")
>>> seq
Seq('AGCT')
>>> print(seq)
AGCT
在这里,我们创建了一个简单的蛋白质序列AGCT,每个字母代表丙氨酸,甘氨酸,半胱氨酸和苏氨酸。
每个Seq对象都有两个重要的属性:
data - 实际序列字符串(AGCT)
alphabet - 用于表示序列的类型。例如 DNA序列,RNA序列等。默认情况下,它不代表任何序列,本质上是通用的。
1. Alphabet模块
Seq对象包含Alphabet属性,用于指定序列类型,字母和可能的操作。它在Bio.Alphabet模块中定义。Alphabet可以定义如下:
>>> from Bio.Seq import Seq
>>> myseq = Seq("AGCT")
>>> myseq
Seq('AGCT')
>>> myseq.alphabet
Alphabet()
Alphabet模块提供以下类来表示不同类型的序列。Alphabet是所有字母类型的基类。
SingleLetterAlphabet- 具有大小为1的字母的通用字母。它从Alphabet派生,所有其他字母类型也从它派生。
>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import single_letter_alphabet
>>> test_seq = Seq('AGTACACTGGT', single_letter_alphabet)
>>> test_seq
Seq('AGTACACTGGT', SingleLetterAlphabet())
ProteinAlphabet - 通用单字母蛋白质字母。用法如下:
>>> from