双序列比对

最新推荐文章于 2023-10-24 09:26:03 发布

筱贺学生信

最新推荐文章于 2023-10-24 09:26:03 发布

阅读量3.3k

点赞数 2

分类专栏：生信文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/m0_70166478/article/details/129341255

版权

生信专栏收录该内容

17 篇文章

订阅专栏

一、序列比对

序列比对是指利用计算机算法程序，比较两个或多个核酸或蛋白质的一级结构核苷酸或氨基酸的异同。

序列比对的研究对象为核酸序列或蛋白质序列。

构成核酸序列的基本单元为核苷酸，构成蛋白质的基本单元为氨基酸

核酸包括脱氧核糖核酸和核糖核酸。DNA序列的基本单元为脱氧核糖核苷酸，由脱氧核糖与磷酸盐构成

DNA分子双螺旋模型，从分子水平上揭示了遗传信息复制和传递的机制

蛋白质序列的基本单元为氨基酸。常见的氨基酸有二十种，氨基酸的基本结构包括主链和侧链两部分。不同氨基酸的主链相同，而侧链不同。按侧链基团、大小、亲疏水性和电荷性等不同性质，可以分为四大类。第一类为疏水氨基酸第二类为带电氨基酸第三类是既不疏水又不带电的极性氨基酸。最后一类包括半胱氨酸、脯氨酸、甘氨酸三个氨基酸

序列比对是指利用计算机程序比较核酸或蛋白质序列之间相似性，找出两个或多个序列之间的相

同区域或差异位点。根据分子生物学中心法则，ＤＮＡ是遗传信息携带者，而蛋白质则是功能分子。不同物种之所以千姿百态、各不相同，其内在原因是它们的基因组不同，或者更确切地说，是它们的ＤＮＡ序列及其编码所得的蛋白质不同

核酸序列的相似性高低，是指通过序列比对所得结果中相同核苷酸残基所占比例，通常用百分比表示。而蛋白质序列比对结果中，除了用相同氨基酸残基所占比例作为相似性指标外，也经常用相同氨基酸加上相似氨基酸作为相似性指标

不论是核酸序列还是蛋白质序列，序列相似性是指相同和相似残基所占全长序列的比例，比例越高，相似性越高。而序列同源性是指所比较的两个序列是否具有共同的祖先序列

同源序列特别是亲缘关系较近的序列，相似性通常较高；反之，相似性较高的两条序列，很有可能具有共同祖先

同源序列通常分为直系同源（Ｏｒｔｈｏｌｏｇ）和并系同源（Ｐａｒａｌｏｇ）两类。

二、双序列比对

双序列比对的方法可以分为两种，一种从全长序列出发，考虑所比对的两条序列的整体相似性，即整体比对（ＧｌｏｂａｌＡｌｉｇｎｍｅｎｔ）；另一种仅考虑所比对序列部分区域的相似性，即局部比对（ＬｏｃａｌＡｌｉｇｎｍｅｎｔ）。一般说来，亲缘关系近的物种间的序列相似性较高，而且经常具有整体相似性；而亲缘关系较远的物种间序列相似性较低，有时仅有局部相似性。整体比对常用来考察两条序列是否在整体上具有较大相似性，并由此推测它们是否具有同源性。而局部比对则可以找出两个序列中的保守序列片段，如蛋白质序列中某个结构域或功能位点，基因上游启动子区域核酸序列调控元件等

动态规划与启发式算法

无论是Ｎｅｅｄｌｅｍａｎ⁃Ｗｕｎｓｃｈ算法或者是Ｓｍｉｔｈ⁃Ｗａｔｅｒｍａｎ算法，都采用计算机领域中常用的动态规划（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）算法。动态规划算法的核心思想，是把一个复杂问题分解为若干子问题，并通过寻找子问题的解，最终找到初始复杂

问题的解

启发式算法：

序列相似性数据库搜索软件ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ（ＢＬＡＳＴ）则采用启发式算法

启发式算法步骤

ＢＬＡＳＴ算法大体分为以下三步。首先，将检测序列按一定字长（ＷｏｒｄＳｉｚｅ）拆分成种子（Ｓｅｅｄ）序列，并按给定计分矩阵和设定阈值，找到与种子序列相似性较高的近邻（Ｎｅｉｇｈｂｏｒ）序列。接着，逐个找到各近邻序列在数据库中匹配序列，并按分值增加原则向两边延伸，得到高分对（ＨｉｇｈＳｃｏｒｉｎｇＰａｉｒ）。将所得主对角线方向距离较近的高分对连接起来，并用Ｓｍｉｔｈ⁃Ｗａｔｅｒｍａｎ方法进行比对。最后，对搜索到的靶标序列进行统计检验，输出期望值（ＥｘｐｅｃｔＶａｌｕｅ）低于设定阈值的靶标序列，即搜索结果。ＢＬＡＳＴ也可用于双序列比对，只要把所要搜索的数据库设定为另一个序列。显然，由于所采用的比对策略完全不同，基于Ｓｍｉｔｈ⁃Ｗａｔｅｒｍａｎ动态规划算法的比对结果和基于ＢＬＡＳＴ启发式算法的比对结果不一定相同，某些情况下差别很大

计分矩阵与空位罚分

所谓计分矩阵，是指比对过程中相同或不同核苷酸或氨基酸之间的匹配或错配分值。例如，核酸序列比对时通常匹配分值为正值，而错配分值为负值。蛋白质序列比对时，匹配分值为正值，而错配分值则与氨基酸性质有关，性质不同的氨基酸之间的错配分值为负值，而性质相似的氨基酸之间的分值有可能为正值

欧洲分子生物学开放软件包（ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＯｐｅｎＳｏｆｔｗａｒｅＳｕｉｔｅ，ＥＭＢＯＳＳ）

该软件包中包括多个双序列比对程序，其中最为常用的是整体比对程序ｎｅｅｄｌｅ，局部比对程序ｗａｔｅｒ，以及基于点阵图的ｄｏｔｔｕｐ和ｄｏｔｍａｔｃｈｅｒ等。ＥＭＢＯＳＳ软件包基于Ｌｉｎｕｘ系统开发，可免费下载安装在Ｌｉｎｕｘ服务器上，用命令行方式运行程序

常用计分矩阵

ＤＮＡｆｕｌｌ是常用计分矩阵之一

由于该矩阵元素沿主对角线对称分布，原始矩阵中主对角线右上方的元素不再列出。其次，根据四种核苷酸的类别将它们分组。第一组为Ａ、Ｔ、Ｇ、Ｃ四种确定的核苷酸，匹配分值为５，错配分值为－４

BLOSUM62矩阵

与核苷酸计分矩阵ＤＮＡｆｕｌｌ类似，主对角线右上方的元素不再列出。基于侧链性质将二十种氨基酸分组，分组原则与图２氨基酸分类基本一致。五个疏水脂肪族氨基酸丙氨酸Ａ、缬氨酸Ｖ、亮氨酸Ｌ、异亮氨酸Ｉ和甲硫氨酸Ｍ分在一组；两个侧链带羟基的氨基酸（丝氨酸Ｓ和苏氨酸Ｔ）分在一组；门冬酰胺Ｎ和谷氨酰胺Ｑ、门冬氨酸Ｄ和谷氨酸Ｅ四个氨基酸分在一组；带正电的三个氨基酸组氨酸Ｈ、赖氨酸Ｋ和精氨酸Ｒ分在一组；三个芳香族氨基酸

（苯丙氨酸Ｆ、酪氨酸Ｙ和色氨酸Ｗ）分在一组；半胱氨酸Ｃ、脯氨酸Ｐ和甘氨酸Ｇ性质独特，各自单独分在一组。需要说明的是，酪氨酸侧链也有羟基，这一点与丝氨酸Ｓ和苏氨酸Ｔ接近，但其侧链苯环与苯丙氨酸Ｆ更加相似，因此将它们分在一组，同组的还有另一个芳香族氨基酸ＷＢＬＯＳＵＭ６２计分矩阵主对角线的２０个矩阵元为相同氨基酸之间的分值，即匹配分值。不同氨基酸的匹配分值有高有低，如色氨酸Ｗ为１１、半胱氨酸Ｃ为９；有的较低，如四个脂肪族氨基酸（丙氨酸Ａ、缬氨酸Ｖ、亮氨酸Ｌ、异亮氨酸Ｉ）和丝氨酸Ｓ均为４。匹配分值的高低与该氨基酸的性质与丰度有关，也从某个侧面反映了该氨基酸的保守性（见表２）。分值越高，保守性越强，越不容易发生替换。除主对角线外的其它矩阵单元为不同氨基酸之间的替换分值，即错配分值。错配分值有正有负，范围在３到－４之间，其中大部分为零或负值。错配分值的高低与两个氨基酸之间的性质有关。两者之间性质差别越大，越不容易发生替换，错配分值也就越低，如第一列半胱氨酸Ｃ与谷氨酸Ｅ、最后一行色氨酸Ｗ与脯氨酸Ｐ之间的错配分值均为－４。同组内氨基酸的错配分值相对较高，有的为正值，如缬氨酸Ｖ和异亮氨酸Ｉ错配分值为３，亮氨酸Ｌ和异亮氨酸Ｉ的错配分值为２，这是因为它们侧链比较相似，容易发生替换。