前言
蛋白质是生命的基本组成单位,它们的结构和功能决定了生物体的各种特性和活动。然而,蛋白质的结构和功能是如何从它们的氨基酸序列中决定的,这是一个长期困扰生物学家的难题。传统的方法是通过实验手段来测定蛋白质的结构和功能,但这种方法耗时耗力,而且无法覆盖所有的蛋白质。随着人工智能的不断发展,一种新的方法出现了,那就是利用深度学习技术来预测蛋白质的结构和功能,这种方法被称为蛋白质语言模型。本文就介绍了一种最先进的蛋白质语言模型ESM,它是如何从大规模的蛋白质序列数据中学习蛋白质的进化规律和序列-结构-功能的关系,以及它在各种蛋白质相关的任务中的表现和应用。
一、什么是蛋白质语言模型ESM?
ESM(Evolutionary Scale Modeling)是一种利用深度学习技术来预测蛋白质结构和功能的方法。ESM的核心思想是将蛋白质序列看作一种语言,每个氨基酸看作一个字符,然后用一个自回归的神经网络来学习这种语言的统计规律。这种神经网络就是Transformer,它是一种基于注意力机制的编码器-解码器模型,能够有效地处理长序列数据。ESM通过在大规模的蛋白质序列数据库上,训练一个Transformer编码器,来学习蛋白质的进化规律和序列-结构-功能的关系。ESM的训练方法是遮盖训练(masked training),即随机遮盖序列中的一部分氨基酸,然后用编码器来预测被遮盖的氨基酸是什么。这种方法可以迫使编码器学习序列中的长距离依赖和上下文信息,从而提取出蛋白质的隐含特征。ESM的输出是一个特征表示(representation),它是一个高维的向量,包含了蛋白质的结构和功能信息。这些信息可以通过线性投影或者其他下游模型来显化,从而实现对蛋白质的各种预测和分析。
二、ESM的主要特点和优势
ESM是一种无监督的蛋白质语言模型,它不需要任何关于蛋白质结构和功能的标注数据,只需要大量的蛋白质序列数据。这使得ESM可以充分利用蛋白质数据库中的海量信息,而不受实验数据的限制。ESM的另一个特点是它可以实现零样本或少样本的预测,即不需要针对每个具体的任务进行额外的训练或微调,只需要用ESM的特征表示作为输入,就可以直接应用到各种蛋白质相关的任务中,例如预测蛋白质的二级结构、三级结构、功能域、互作伙伴、突变效应等。ESM的优势在于它可以从蛋白质序列中提取出丰富的信息,包括蛋白质的生化特性、序列变异特性、远缘同源性、结构稳定性、结合位点等1。这些信息可以帮助我们理解蛋白质的结构和功能,以及它们之间的关系。ESM还可以用于生成新的蛋白质序列,或者对已有的蛋白质序列进行优化和设计。
三、ESM的应用场景和案例
- 预测蛋白质的二级结构:二级结构是蛋白质的局部折叠形式,通常分为三种类型:螺旋、折叠和无规则。二级结构是蛋白质三级结构的基础,也是蛋白质功能的重要因素。ESM可以通过对蛋白质序列进行编码,得到每个氨基酸的特征表示,然后用一个简单的线性分类器来预测每个氨基酸的二级结构类型。ESM在这个任务上的准确率达到了88.6%,超过了之前的最佳方法。
- 预测蛋白质的三级结构:三级结构是蛋白质的空间折叠形式,决定了蛋白质的立体结构和功能。三级结构的预测是一个非常困难的问题,因为它涉及到蛋白质序列和结构之间的复杂映射关系。ESM可以通过对蛋白质序列进行编码,得到每个氨基酸的特征表示,然后用一个神经网络模型来预测每对氨基酸之间的距离和角度,从而重构出蛋白质的三级结构。ESM在这个任务上的表现非常出色,能够预测出与实验结构非常接近的三级结构,甚至能够预测出一些之前未知的结构。
- 预测蛋白质的功能域:功能域是蛋白质中具有特定结构和功能的一段子序列,它们是蛋白质功能的基本单元。功能域的预测是一种序列注释的方法,可以帮助我们理解蛋白质的功能和进化。ESM可以通过对蛋白质序列进行编码,得到每个氨基酸的特征表示,然后用一个简单的线性分类器来预测每个氨基酸是否属于某个功能域,从而识别出蛋白质的功能域。
- 预测蛋白质的互作伙伴:互作伙伴是指能够与目标蛋白质发生物理或化学相互作用的其他分子,例如其他蛋白质、核酸、小分子等。互作伙伴的预测是一种重要的功能注释方法,可以帮助我们揭示蛋白质的生物学作用和信号传导途径。ESM可以通过对两个蛋白质序列进行编码,得到它们的特征表示,然后用一个简单的线性回归器来预测它们之间的互作得分,从而判断它们是否能够形成复合物。ESM在这个任务上的表现优于之前的方法,例如DeepComplex和DeepInterface。
- 预测蛋白质的突变效应:突变效应是指蛋白质序列中的单个或多个氨基酸的变化对蛋白质的结构和功能的影响,例如稳定性、活性、亲和力等。突变效应的预测是一种重要的功能分析方法,可以帮助我们理解蛋白质的进化和适应性,以及设计新的蛋白质变体。ESM可以通过对原始蛋白质序列和突变后的蛋白质序列进行编码,得到它们的特征表示,然后用一个简单的线性回归器来预测突变对蛋白质的影响,例如突变的自由能变化、突变的稳定性变化、突变的催化效率变化等。ESM在这个任务上的表现优于之前的方法,例如ENCoM和mCSM。
- 生成新的蛋白质序列:生成新的蛋白质序列是一种创造性的任务,可以用于蛋白质设计和优化,例如设计新的药物、酶、疫苗等。ESM可以通过对给定的蛋白质序列进行编码,得到它的特征表示,然后用一个自回归的Transformer解码器来生成新的蛋白质序列,从而实现对蛋白质序列的修改或扩展。ESM在这个任务上的表现优于之前的方法,例如UniRep和ProtTrans。
总结
ESM是一种基于Transformer的蛋白质语言模型,它可以从大量的蛋白质序列数据中学习蛋白质的进化规律和序列-结构-功能的关系,从而实现对蛋白质的各种预测和生成任务。ESM的优点是它可以实现零样本或少样本的预测,即不需要针对每个具体的任务进行额外的训练或微调,只需要用ESM的特征表示作为输入,就可以直接应用到各种蛋白质相关的任务中。ESM的缺点是它需要大量的计算资源和存储空间,以及高质量的蛋白质序列数据。ESM的未来发展方向是提高它的泛化能力和可解释性,以及探索它在蛋白质设计和优化方面的潜力。