一、认识序列
FASTA格式
第一行:“>”+名称或其他注释
第二行及以后:字符串表示序列
二、序列的相似性
1.序列相似的重要性
相似的序列往往起源于同一个共同的祖先序列,它们很可能有相似的空间结构和生物学功能,即
相似的序列->相似的结构->相似的功能
可用序列相似、结构功能已知的蛋白质推测当前仅知道序列的蛋白质
2.一致度与相似度
一致度(identity):如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为它们对应位置上相同的残基(一个字母,胺基酸或碱基)的数目占总长度的百分数,即
identity=(一致字符的个数/全局比对长度)*100%
相似度(similarity):如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为它们对应位置上相似的残基与相同的残基的数目和占总长度的百分数,残基两两相似的量化关系被替换记分矩阵所定义,即
similarity=(一致及相似的字符个数/全局比对长度)*100%
做法:先做双序列全局比对,再根据比对结果和比对长度计算一致度和相似度
三、替换记分矩阵
1.核酸序列的替换记分矩阵
3种常见的DNA序列的替换记分矩阵
2.蛋白质序列的替换记分矩阵
3种常见的蛋白质序列的替换记分矩阵
其它2种蛋白质序列比对的替换记分矩阵
四、序列两两比较—打点法
1.做法
序列 s s s 水平书写,序列 t t