从进化尺度进行蛋白质语言建模是迈向用于生物学人工智能的合理步骤。利用无监督学习在跨越进化多样性的2.5亿条蛋白质序列(共860亿个氨基酸)上训练一个深度上下文语言模型。所得模型的表征中包含有关生物学特性的信息。这些表征仅从序列数据中学习得到。学习到的表征空间具有多尺度结构,反映了从氨基酸的生化特性层面到蛋白质远程同源性的结构。有关二级和三级结构的信息编码在这些表征中,并且可以通过线性投影识别出来。
原文参考:Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences,PNAS,2021
目录
背景概述
解开蛋白质序列变异中编码的信息是生物学领域的一个长期难题。在人工智能领域,类似的问题是自然语言理解,其中的分布假设认为,一个单词的语义可以从它出现的语境中推导出来。自监督(利用文本中的上下文来预测缺失单词)已被证明能够实现单词意义的表征,且这种表征可在多种自然语言任务中通用。随着训练数据集规模的增大,学习这种表征的能力会显著提高。
蛋白质序列的产生过程与自然语言大不相同。目前尚不确定对自然语言有效的模型和目标函数是否能跨领域应用。作者通过在进化数据上训练高容量的Transformer语言模型来探究这个问题。作者研究由此产生的无监督表征,以寻找其中是否存在生物学信息。作者发现,表征空间中的度量结构与从物理化学到远程同源性等不同尺度的原则相符。还发现蛋白质的二级和三级结构能够在表征中识别出来。这些表征所捕捉到的结构特性在不同的蛋白质折叠类型中具有通用性。作者将这些表征应用于一系列预测任务,发现它们在各种应用中改进了当前最先进的特征。
相关知识
序列比对和搜索是生物序列数据比较和统计分析的标准基础。在包含进化多样性的大型数据库中进行搜索,可将相关序列整合为多序列比对(MSA)。在序列家族中,保守位点与功能和结构的重要性相关,协同进化与功能、三级相互作用和结合有关。
最近,自监督学习已成为人工智能研究的核心方向。与需要对每个数据点进行手动标注的监督学习不同,自监督方法使用未标记的数据集,因此可以利用数量大得多的数据。自监督学习使用代理任务进行训练,例如根据句子中前面的所有单词预测下一个单词,或者预测从上下文中被屏蔽的单词。增加数据集大小和模型容量已显示出能改进表征。在最近的研究中,自监督方法与大数据和高容量模型结合使用,在各种问答和语义推理基准测试中产生了接近人类表现的结果,并能生成连贯的自然文本。
本文探索了在一系列自然语言处理任务中展现出最先进性能的自监督语言建模方法,并将其应用于未标记的蛋白质数据(仅包含氨基酸排列顺序)。由于蛋白质序列使用由20种标准元素构成的有限 “词汇表”,因此与词级语言模型相比,该建模问题更类似于字符级语言模型。与自然语言一样,蛋白质序列也包含长程依赖关系,这促使人们使用能够检测和模拟远距离上下文的架构。
将语言模型扩展至2.5亿条多样的蛋白质序列
作者探索了UniParc数据库中多达2.5亿条序列的数据集,该数据库包含860亿个氨基酸。这些数据的规模与用于训练针对自然语言的大容量神经网络架构的大型文本数据集相当。为了准确地对进化数据进行建模,神经网络架构必须具备足够的容量。目前,Transformer已成为一种强大的通用模型架构,用于表征学习和生成式建模,在自然语言处理场景中表现优于RNN和CNN。这里,采用Transformer,将氨基酸字符序列作为输入。
Transformer通过一系列模块处理输入,这些模块在自注意力机制和前馈连接之间交替进行。自注意力机制使网络能够构建复杂的表征,纳入来自整个序列的上下文信息。由于自注意力机制明确构建了序列中所有位置之间的成对交互,Transformer架构可直接表示残基与残基之间的相互作用。使用掩码语言建模目标来训练模型。每个输入序列通过用mask token替换一部分氨基酸。网络经过训练,从被破坏的序列中预测缺失的token:
对于每个序列 x x x<