BLOSUM62的知识

BLOSUM是氨基酸替换打分矩阵,常用于蛋白质序列比对,其中BLOSUM62是最广泛应用的类型。它通过统计氨基酸模式在高度保守序列中的替换概率来计算得分,与PAM矩阵不同的是,BLOSUM矩阵的内容完全基于观察数据。BLOSUM62适合比较62%相似度的序列,而PAM矩阵则依据进化距离处理不同距离的序列。
摘要由CSDN通过智能技术生成

1. BLOSUM:

BLOSUM 是“blocks substitution matrix”的缩写。它是目前常用的一种氨基酸替换打分矩阵。

BLOSUM打分矩阵最早由 Steven Henikoff. 和 J.G Henikoff在他们的论文中被提出。其中,他们从BLOCKS数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。他们继续使用对数胜算来计算矩阵中的分值。与PAM打分矩阵相比,BLOSUM打分矩阵的内容皆由观察得出。在实际运用中,BLOSUM矩阵通常能获得更好的结果。

BLOSUM:首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列) ,分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比 较数据为根据,产生BLOSUM80。

原文链接:https://blog.csdn.net/weixin_45156147/article/details/109953649

2. BLOSUM62

BLOSUM-n中,n越小表示氨基酸相似的可能性越小,相似的序列之间比较应该选用 n 值大的矩阵,不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62%相似度的序列,BLOSUM-80用来比较80%左右的序列。

BLOSUM62是应用得最广的氨基酸替换矩阵广泛应用于双序列比对,用来测量两条氨基酸段的相似程度,反应了蛋白质进化的信息。也是BLAST程序默认调用的计分矩阵。

也就是说BLOSUM62矩阵来自于序列间等同残基比超过62%的blocks(区块)。而block就是序列间联配上的无空位区域。

得到BLOSUM62的过程:

1.先定一个阈值L,比如你最后想得到BLOSUM62矩阵,就把L定为62。

2 . 前往蛋白质序列数据库,将符合序列间等同残基比大于L的序列归为一类。

3.将得到的类里面的序列作多序列比对(用PAM矩阵进行的多序列对比)。

4. 对比后,将保守无空位的区域划分为block。5.在block内统计频率,一个block相当于一个匹配模型。运用对数几率比得出s(a,b)。

原文链接:六种编码方案_Super齐的博客-CSDN博客

3. 计算过程:

随机模型R:每一个碱基都是以频率q独立出现
匹配模型M:匹配上的碱基对以联合概率p(ab)出现,p(ab)的值可以认为是b就是由a演变而来的概率。

定义:

3.1 计算出一个block中每一列每一种配对出现的频数

第一列的为AABACA,分别求出可能出现的配对情况(两两配对)和次数:

在AABACA中:AA两两配对出现了6次;AB出现了4次;AC出现了4次;BB出现了0次;

BC出现了1次;CC出现了0次

 于是可以归纳出一般计算配对频数的方法:若碱基相同,n*(n-1)/2若碱基不同,n1 * n2,n为碱基出现次数。

3.2  遍历block的每一列,将特定配对情况的频数都加起来

第二列BBBABA中AB出现的次数是8次,所以说加上第一列的就是一共是12次;将7列的所有出现的碱基对记录下来,就可以得到下表。

 这些频数的加和一定是等于这个block中所有能观察到的配对数的和:w是列数,n是行数。

3.3  计算出每一种配对情况的观察到的频率

以AB为例,AB出现的次数是12次,总的次数是105次:

3.4 基于block计算某种氨基酸出现的概率

以计算A的概率为例AA配对贡献两个A,A(其他氨基酸)这类配对贡献一个;

PA= 7 * 2 + (12 + 9+ 5) / 310 = 7 /105 +( 12 /105 + 9 /105 + 5 /105) / 2 

氨基酸在配对过程中总的出现次数是105*2,T=105;2 *T=310.

3.5 计算由于随机因素两个氨基酸一起出现的期望概率(两种可行性)

3.6 求出log odds ratio

3.7 确定计分矩阵

上面的结果再乘以2四舍五入取整即可

4.  PAM and BLOSUM的异同点

  1. PAM矩阵的构建基于进化模型——需要一个突变率,其估计需要通过构建系统发生树及推断祖先序列。BLOSUM矩阵的构建如上面讲的,替换率可以直接从保守无gap的block中看出来。因此PAM经常被用来构建系统发生树,BLOSUM经常被用来做局部比对。
  2. PAM矩阵的构建是对全长序列(包括保守序列以及不保守序列)进行全局比对,而BLOSUM矩阵对block进行局部比对。通过比较BLOSUM62和PAM160可以发现,BLOSUM62对于亲水氨基酸的替换更严格,对于疏水氨基酸的替换更容忍。此外,对于罕见的氨基酸,比如半胱氨酸和色氨酸,BLOSUM也更容忍。
  3. 适用范围
    PAM矩阵
    后缀数字越大,处理进化上距离远的蛋白质序列效果越好;
    后缀数字越小,处理进化上距离近的蛋白质序列效果越好。
  4. BLOSAM矩阵
    后缀数字越大,处理进化上距离近的蛋白质序列效果越好。


链接:https://www.jianshu.com/p/2c3fdeb4577e
 

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值