AlphaFold
1 原特点
输入:氨基酸序列。每一个位置的元素代表了链上的一个氨基酸单元。
处理结果:处理后的数据是每一个氨基酸单元和其下一个氨基酸单元在空间中的夹角,用2维数据(φ, ψ),也就是距离与夹角对描述在三维空间的相对位置。
输出:预测出的可视化拓扑结构。
2 算法思路
2.1 特征抽取
首先是输入人源的蛋白质氨基酸序列信息分为三个路径进行处理:
1、将序列输入基因数据库搜索相似蛋白序列,一一对应。之后组合为三维张量(s,r,c)将信息作为MSA(多序列对比)板块加入Evoformer板块,以提出相似蛋白质不同序列的特征。
2、蛋白质氨基酸序列两两配对组成三维张量(r,r,c)输入Evoformer板块提取氨基酸之间的关系信息。
3、将序列放入结构数据库进行搜索,找出氨基酸对之间的空间距离信息作为模板。
2.2 编码器(Evoformer)
Evoformer板块由48块组成,抽提上一步所得数据的信息。