AlphaFold学习心得

最新推荐文章于 2023-12-20 11:09:33 发布

小甘正在努力学习

最新推荐文章于 2023-12-20 11:09:33 发布

阅读量737

点赞数 1

文章标签：算法

本文链接：https://blog.csdn.net/hollowbrain/article/details/124003417

版权

AlphaFold

1 原特点

输入：氨基酸序列。每一个位置的元素代表了链上的一个氨基酸单元。

处理结果：处理后的数据是每一个氨基酸单元和其下一个氨基酸单元在空间中的夹角，用2维数据(φ, ψ)，也就是距离与夹角对描述在三维空间的相对位置。

输出：预测出的可视化拓扑结构。

2 算法思路

2.1 特征抽取

首先是输入人源的蛋白质氨基酸序列信息分为三个路径进行处理：

1、将序列输入基因数据库搜索相似蛋白序列，一一对应。之后组合为三维张量（s,r,c）将信息作为MSA（多序列对比）板块加入Evoformer板块，以提出相似蛋白质不同序列的特征。

2、蛋白质氨基酸序列两两配对组成三维张量（r,r,c）输入Evoformer板块提取氨基酸之间的关系信息。

3、将序列放入结构数据库进行搜索，找出氨基酸对之间的空间距离信息作为模板。

2.2 编码器（Evoformer）

Evoformer板块由48块组成，抽提上一步所得数据的信息。

Evoformer块组成

2.2.1 序列信息

首先进入自注意力模块（有残差连接）

↓

数据进入按行的带门的注意力机制（按对偏移）：MSA中每一行作为序列，对每一个元素做投影得到querise和keys进行点乘计算相似度之后加上pair bias（对之间的信息线性投影）通过Softmax计算自注意力权数，之后将自注意力权数与values（元素做投影）相乘得到输出（output）。以上流程运行多次后并起输出，与gating（元素线性投影通过sigmoid函数得到）做点乘后，做线性投影得到输出，更新MSA这一行的值。

↓

数据再进入按列的带门的注意力机制，这一板块与按行的带门的注意力机制几乎一样，区别在于这个板块是提取每一列里面的序列信息且没有对信息作为pair bias加入其中。

↓

MSA信息加入一个全连接层并投影到4倍大小，之后通过ReLU激活函数，再投影到原来大小，输入MSA作为新数值。得到的数值一方面输出MSA，一方面加入序列对信息的计算。

2.2.2氨基酸对的信息

接下来的是序列对信息的板块：

↓

MSA的信息将两个不同氨基酸之间的信息（列）通过全连接层投影为二维矩阵，之后做外积变为三维张量（s,1,c），做点乘得到（s,c,c,）。之后在s上取氨基酸信息的均值得到（c，c）矩阵，矩阵线性投影为向量加入相应的氨基酸对序列信息。

↓

把输入数据z投影到c的维度，通过sigmoid函数（担任gating）。氨基酸对对应的行也是做线性投影后与gating做点乘后相互点乘。之后加和通过layerNorm后再线性投影，通过gating，作为对应部位的新数值。Triangular multiplicative update using outgoing edges与Triangular multiplicative update using incoming edges结构几乎一致，同理。

↓

同样与前面的按行的带门的注意力机制十分相似，计算方式也十分相似。但相比于前面的序列相似度，更加注意氨基酸对之间的关系（角的关系）。Triangular self-attention around starting node和Triangular self-attention around ending node和前面按行按列的关系几乎一致。

↓