生物序列比对:原理、方法与意义
1. 特定序列的检索
在检索特定基因或蛋白质序列时,由于GenBank数据库中序列数量庞大且索引复杂,即便遵循相关说明,检索工作也颇具难度。对于需要最新可用序列的项目,应搜索NR数据库;而其他项目则可借助如PIR和SwissProt等经过更好整理和注释的蛋白质序列数据库。此外,某些基因组数据库也能提供特定基因或蛋白质的序列。
Genpro数据库中的蛋白质序列由DNA序列自动翻译生成。当从mRNA序列的cDNA拷贝读取时,鉴于翻译起始位点存在一定不确定性,仍能提供可靠的序列。如今,许多蛋白质序列是通过基因组序列翻译预测得出的,这需要对编码区(外显子)进行预测,此步骤易出错。因此,需确定蛋白质序列条目的来源,若不是来自cDNA序列,可能需获取并测序该基因的cDNA拷贝。
2. 序列比对的定义
序列比对是比较两个(成对比对)或多个(多重序列比对)序列的过程,通过寻找序列中顺序相同的单个字符或字符模式来进行。将两个序列写在同一页面的两行上,相同或相似的字符置于同一列,不同的字符可作为错配放在同一列,或与另一序列的空位相对。在最优比对中,会合理放置不同字符和空位,使尽可能多的相同或相似字符垂直对齐。能以这种方式轻松比对的序列被认为是相似的。
序列比对主要分为全局比对和局部比对两种类型:
- 全局比对 :尝试对齐整个序列,尽可能使用每个序列两端之间的所有字符。适用于非常相似且长度大致相同的序列。例如,对于两个假设的蛋白质序列片段,全局比对会在整个序列长度上延伸,以包含尽可能多的匹配氨基酸,直至序列末端。序列间的竖线表示相同氨基酸的存在。即便存在明显的相同区域,全局比对可
订阅专栏 解锁全文
93

被折叠的 条评论
为什么被折叠?



