在生物信息学分析中,经常对DNA序列进行一系列操作,包括子序列截取,互补序列获取,反向序列获取,反向互补序列获取。在python语言中,可编写如下函数完成这些简单功能。
子序列截取
python中对序列截取使用字符串切片功能就可以完成,例如:
>>> seq="ATGATATAGtatatatgCAAGAGg" >>> subseq = seq[1:6] >>> subseq "TGATA"
注意,切片操作是“0-base”的,包左不包右。
互补序列获取
比较常见的做法是定义一个碱基替换字典,如下所示:
def complement