PSP - 蛋白质结构预测 ESMFold 算法的工程配置

SpikeKing

已于 2023-07-11 21:09:04 修改

阅读量2.6k

点赞数 8

分类专栏： AI for Biotech 文章标签： python 开发语言

于 2023-02-16 15:08:08 首次发布

本文链接：https://blog.csdn.net/caroline_wendy/article/details/129062590

版权

113 篇文章 8 订阅 ¥79.90 ¥99.00

订阅专栏

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/129062590

ESMFold

ESMFold 是一种基于预训练语言模型的蛋白质结构预测方法，主要思想是利用大规模预训练蛋白质语言模型来替代 MSA（多序列比对），并且语言模型的规模与结构预测效果具有明显的正相关。ESMFold 的流程分为两个部分：序列预训练和结构预测。

序列预训练部分：使用了一个 15 亿参数的 Transformer 模型，叫做 ESM-2，来学习蛋白质序列自身的表征。ESM-2 采用随机 Mask 掉残基来预测被mask残基类型的训练方式，类似于 BERT。ESM-2 还对位置编码做了修改，可以支持更长的氨基酸序列编码。
结构预测部分：将预训练好的语言模型 ESM-2 的蛋白质序列 Embedding 和 Attention Map 接入与 48 层 Folding Trunk 和 8 层 Structure Module，来预测蛋白质全原子的结构。Folding Trunk 是退化版的 Evoformer，因为只有单序列，所以 Axis Attention 机制就退化成了普通的 Self-Attention，而节点与边 Embbe

了解本专栏

关注