序列
序列就是个字符串
s=abcdefghijkl
Si 代表序列s的第i个字符,比如s4=d
s' =abcde 序列s' 是序列s的子序列
蛋白质序列:由20个不同的字母(氨基酸)排列组合组成
核酸序列:由四个不同的字母(碱基)排列组合而成(DNA序列、RNA序列)
FASTA格式:
第一行:大于号加名称其他注释
第二行以后:每行60个字母(也有80的)
相似的序列往往起源于一个共同的祖先序列,他们很可能有相似的空间结构和生物学功能
一致度:如果两个序列长度相同,那么他们的一致度定义为他们对应位置上相同的残基的数目占总长度的百分数。
相似度:如果两个序列长度相同,那么他们的相似度定义,为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。
替换记分矩阵:反应残基之间相互替换率的矩阵,他描述了残基两两相似的量化关系。分为DNA替换记分矩阵和蛋白质替换记分矩阵。
DNA序列替换记分矩阵
蛋白质替换矩阵
最常用的:BLOSUM-62
其他矩阵
1、遗传密码矩阵
2、疏水矩阵
序列比较的方法
打点法:最简单的方法
发现串联重复序列:相同距离的平行线的次数
软件:Dotlet Doadot Dotter Dottup
序列比对法: 运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。