一、序列比对
序列比对是指利用计算机算法程序,比较两个或多个核酸或蛋白质的一级结构核苷酸或氨基酸的异同。
序列比对的研究对象为核酸序列或蛋白质序列。
构成核酸序列的基本单元为核苷酸,构成蛋白质的基本单元为氨基酸
核酸包括脱氧核糖核酸和核糖核酸。DNA序列的基本单元为脱氧核糖核苷酸,由脱氧核糖与磷酸盐构成
DNA分子双螺旋模型,从分子水平上揭示了遗传信息复制和传递的机制
蛋白质序列的基本单元为氨基酸。常见的氨基酸有二十种,氨基酸的基本结构包括主链和侧链两部分。不同氨基酸的主链相同,而侧链不同。按侧链基团、大小、亲疏水性和电荷性等不同性质,可以分为四大类。第一类为疏水氨基酸 第二类为带电氨基酸 第三类是既不疏水又不带电的极性氨基酸。最后一类包括半胱氨酸、脯氨酸、甘氨酸三个氨基酸
序列比对是指利用计算机程序比较核酸或蛋白质序列之间相似性,找出两个或多个序列之间的相
同区域或差异位点。 根据分子生物学中心法则, DNA 是遗传信息携带者,而蛋白质则是功能分子。 不同物种之所以千姿百态、各不相同,其内在原因是 它们的基因组不同,或者更确切地说,是它们的 DNA 序列及其编码所得的蛋白质不同
核酸序列的相似性高低,是指通过序列比对所得 结果中相同核苷酸残基所占比例,通常用百分比表 示。 而蛋白质序列比对结果中,除了用相同氨基酸残基所占比例作为相似性指标外,也经常用相同氨基酸 加上相似氨基酸作为相似性指标
不论是核酸序列还是蛋白质序列,序列相似性 是指相同和相似残基所占全长序列的比例,比例越高,相似性越高。 而序列同源性是指所比较的两个序列是否具有共同的祖先序列
同源序列特别是 亲缘关系较近的序列,相似性通常较高;反之,相似 性较高的两条序列,很有可能具有共同祖先
同源序列通常分为直系同源(Ortholog)和并系 同源(Paralog)两类
。
二、双序列比对
双序列比对的方法可以分为两种
,
一种从全长 序列出发,
考虑所比对的两条序列的整体相似性,
即整体比对(Global Alignment);
另一种仅考虑所比对 序 列 部 分 区 域 的 相 似 性,
即 局 部 比 对
( Local Alignment)。一般说来
,
亲缘关系近的物种间的序列 相似性较高,
而且经常具有整体相似性
;
而亲缘关系 较远的物种间序列相似性较低,
有时仅有局部相似 性。
整体比对常用来考察两条序列是否在整体上具 有较大相似性,
并由此推测它们是否具有同源性
。 而局部比对则可以找出两个序列中的保守序列片 段,
如蛋白质序列中某个结构域或功能位点
,
基因上 游启动子区域核酸序列调控元件等
动态规划与启发式算法
无论是
Needleman⁃Wunsch
算法或 者是 Smith⁃Waterman
算法
,
都采用计算机领域中常用的动态规划(Dynamic Programming)
算法
。
动态规划算法的核心思想,
是把一个复杂问题分解为若干子问题,
并通过寻找子问题的解
,
最终找到初始复杂
问题的解
启发式算法:
序列相似性数据库搜索软件 Basic Local Alignment Search Tool(BLAST)则采用启 发式算法
启发式算法步骤
BLAST
算法大体分为以下三步
。
首先
,
将检测序列按一定字长(Word Size)
拆分成种子
( Seed)
序列,
并按给定计分矩阵和设定阈值
,
找到与种子序列相似性较高的近邻(Neighbor)
序列
。
接着
,
逐个找到各近邻序列在数据库中匹配序列,
并按分值增加原则向两边延伸,
得到高分对
(High Scoring Pair)。
将所得主对角线方向距离较近的高分对连接起来,
并用 Smith⁃Waterman
方法进行比对
。
最后
,
对搜索到的靶标 序 列 进 行 统 计 检 验,
输 出 期 望 值
( ExpectValue) 低于 设 定 阈 值 的 靶 标 序 列
,
即 搜 索 结 果。
BLAST 也可用于双序列比对
,
只要把所要搜索的数据库设定为另一个序列。
显然
,
由于所采用的比对策略完全不同,
基于
Smith⁃Waterman
动态规划算法 的比对结果和基于 BLAST
启发式算法的比对结果不一定相同,
某些情况下差别很大
计分矩阵与空位罚分
所谓计分矩阵
,
是指比对过程中相同或不同核苷酸或氨基酸之间的匹配或错配分值。
例如,
核酸序列比对时通常匹配分值为正值
,
而错配分 值为负值。
蛋白质序列比对时
,
匹配分值为正值
,
而 错配分值则与氨基酸性质有关,
性质不同的氨基酸之间的错配分值为负值,
而性质相似的氨基酸之间的分值有可能为正值
欧洲分子生物学开放软件包
( European MolecularBiology Open Software Suite , EMBOSS)
该软件包 中包括多个双序列比对程序,
其中最为常用的是整 体比对程序 needle,
局部比对程序
water,
以及基于点 阵图的 dottup
和
dotmatcher
等
。EMBOSS
软件包基于 Linux
系统开发
,
可免费下载安装在
Linux
服务器上,
用命令行方式运行程序
常用计分矩阵
DNAfull 是常用计分矩阵之一
由于该矩阵元素沿主对角线对称分布
,
原 始矩阵中主对角线右上方的元素不再列出。
其次
,根据四种核苷酸的类别将它们分组。
第一组为
A、 T、G、C 四种确定的核苷酸
,
匹配分值为
5,
错配分值为-4
BLOSUM62矩阵
与核苷酸计分矩阵
DNAfull
类似
,
主对角线右 上方的元素不再列出。
基于侧链性质将二十种氨基 酸分组,
分组原则与图
2
氨基酸分类基本一致
。
五 个疏水脂肪族氨基酸丙氨酸 A、
缬氨酸
V、
亮氨酸 L、异亮氨酸
I
和甲硫氨酸
M
分在一组
;
两个侧链带羟基的氨基酸(
丝氨酸
S
和苏氨酸
T)
分在一组
;
门冬酰胺 N
和谷氨酰胺
Q、
门冬氨酸
D
和谷氨酸
E四个氨基酸分在一组;带正电的三个氨基酸组氨酸 H、赖氨酸 K 和精氨酸 R 分在一组;三个芳香族氨基酸
(
苯丙氨酸
F、
酪氨酸
Y
和色氨酸
W)
分在一组
;
半胱氨酸 C、
脯氨酸
P
和甘氨酸
G
性质独特
,
各自单独分在一组。
需要说明的是
,
酪氨酸侧链也有羟基
,这一点与丝氨酸 S
和苏氨酸
T
接近
,
但其侧链苯环与苯丙氨酸 F
更加相似
,
因此将它们分在一组
,同组的还有另一个芳香族氨基酸 W BLOSUM62 计分矩阵主对角线的 20 个矩阵元为相同氨基酸之间的分值,即匹配分值。 不同氨基酸的匹配分值有高有低,如色氨酸 W 为 11、半胱氨酸 C 为 9;有的较低,如四个脂肪族氨基酸(丙氨酸 A、缬氨酸 V、亮氨酸 L、异亮氨酸 I)和丝氨酸 S均为 4。 匹配分值的高低与该氨基酸的性质与丰度有关,也从某个侧面反映了该氨基酸的保守性(见表2) 。 分值越高,保守性越强,越不容易发生替换。除主对角线外的其它矩阵单元为不同氨基酸之间的替换分值,即错配分值。 错配分值有正有负,范围在 3 到-4 之间,其中大部分为零或负值。 错配分值的高低与两个氨基酸之间的性质有关。 两者之间性质差别越大,越不容易发生替换,错配分值也就越低,如第一列半胱氨酸 C 与谷氨酸 E、最后一行色氨酸 W 与脯氨酸 P 之间的错配分值均为-4。 同组内氨基酸的错配分值相对较高,有的为正值,如缬氨酸V 和异亮氨酸 I 错配分值为 3,亮氨酸 L 和异亮氨酸I 的错配分值为 2,这是因为它们侧链比较相似,容易发生替换。
