多序列比对介绍
多序列比对,指对两条以上的生物序列进行全局比对。
多序列比对的用途
- 确认:一个未知的序列是否属于某个家族。
- 建立:系统发生树,查看物种间或者序列间的关系。
- 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守的片段。
- 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列是否也具有该功能。
- 其他:预测蛋白质/RNA的二级结构。
多序列比对的算法
目前所有的多序列比对工具都不是很完美的,它们都使用一种近似的算法。
对要进行多序列比对的序列的几点要求
- 太多的序列受不了。一般10-15条序列,最好别超过50条。
- 关系太远的受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。
- 关系太近的受不了。两两之间序列相似度大于90%的序列,再多条都等于只有一条。
- 短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。
- 有重复域的序列受不了。如果序列里包含重复域,大多数多序列比对的程序都会出错,甚至崩溃。
序列的名字有几点建议
- 名字里不要有“空格”,用“_”代替“空格”。
- 不要用特殊字符,(比如中文,@,#,&,^等)
- 名字的长度不要超过15个字符
- 一组序列里,不要有重名的序列
- 如果不按上述几点建议命名的话,多序列比对的工具会在不告诉你的情况下修改你的序列名称
在线多序列比对工具
EBML Clustal-Omega
* | 完全保守的一列,即这一列的残基完全相同 |
: | 这一列的残基有大致相似的分子大小及相同亲疏水性,即这一列残基或相同或相似 |
· | 在进化过程中,残基的分子大小及亲疏水性被一定程度上保留了,但是有替换发生在不相似的残基间 |
| 完全不保守的一列 |
TCOFFEE Expresso
用于做加入结构信息的蛋白质多序列比较。
多序列比对的保存格式
在选择保存格式之前,需要问自己几个问题:
- 大多数软件都支持我要选的这个格式吗?
- 我的同事们能使用我选的这个格式吗?
- 这个格式能保存我所需要的信息吗?
- 这个格式适合我进一步加工吗?
如果比对工具输出的格式里没有我想要的那种,可以通过第三方软件进行格式转换,比如:fmtseq。
多序列比对的编辑和发布
JalView介绍
为了能对多序列比对的结果进行彩色显示和手工编辑,人们开发了多序列比对结果编辑器。JalView是一个特别常用的编辑器。
多序列比对美化工具
名称 | 特点 |
JalView | JAVA,可嵌入网页 |
Boxshade | 擅长黑白作图 |
EXPript | 功能强大 |
MView | 擅长转换成HTML源码 |
寻找保守区域
究竟想从多序列比对中获得什么?保守区域。
序列标识图WebLogo
序列标识图(sequence logo)是以图形的方式依次绘出序列比对中各个位置上出现的残基。每个位置上残基的累积可反应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成正比。但图形的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。

序列基序MEME
在核酸/蛋白质序列中存在有特定模式(pattern)的序列片段,这些片段称为序列的基序(motif)。序列基序与生物功能密切相关。比如,N-糖基化位点基序总是符合以下特点模式:Asn开始,然后紧跟除了Pro之外的任何一个氨基酸,再紧跟Ser或者Thr,再紧跟除Pro外的任何一个氨基酸。
MEME是一款可以自动从一组相关的DNA或蛋白质序列中发现序列基序的软件。
PRINTS指纹图谱数据库
一个蛋白质的指纹(Prints)就是一组保守的序列基序,用于刻画蛋白质家族的特征。这些基序由多序列比对结果获得,且他们在氨基酸序列上是不相邻的,但是在三维结构中,他们可能紧密结合在一起。
PRINTS是蛋白质序列指纹图谱数据库,存储目前已发现的蛋白质家族的指纹图谱。对于一个陌生的蛋白质,只要看看它的序列是否符合某个家族的图谱就可以对它进行分类并预测它的功能。