阅读笔记--TAPE--NIPS2019

1、概要

蛋白质表示学习是机器学习研究的一个日益热门的领域。由于获取监督蛋白质标签的成本较高,但目前的文献在数据集和标准化评价技术方面比较零散,因此半监督学习作为蛋白质表示学习中的一种重要范式。为了促进这一领域的进展,作者引入了评估蛋白质嵌入的任务(TAPE),这是一组分布在蛋白质生物学不同领域的五个与生物学相关的半监督学习任务。我们将任务划分为特定的训练、验证和测试三种任务,以确保每个任务都测试与生物学相关的泛化,并将其转移到现实场景中。我们对半监督蛋白质表征学习的一系列方法进行了基准测试,这些方法涵盖了最近的工作以及典型序列学习技术。我们发现,自我监督的预训练对于几乎所有任务的模型都是有帮助的,在某些情况下甚至可以使性能加倍。尽管如此,在某些情况下,通过自监督预训练学习的特征仍然落后于由最先进的非神经技术提取的特征。这种性能上的差距为创新的架构设计和改进的建模模式提供了巨大的机会,这些模式可以更好地捕捉生物序列中的信号。作者根据三个自监督学习可以带来提升的蛋白质生物学领域(结构预测,远程同原物检测,蛋白质工程)来选择监督任务。

  • 结构预测:从蛋白质的氨基酸序列中预测蛋白质的三维结构。也就是说,从蛋白质的一级结构预测它的折叠和二级、三级、四级结构。结构预测与蛋白质设计的反问题有着根本的不同。蛋白质结构预测是生物信息学与理论化学所追求的最重要目标之一;它在医学上(例如,在药物设计)和在生物技术上(例如,新的酶的设计)都是非常重要的。
  • 远程同原物检测:同源蛋白是指同源蛋白:氨基酸序列具有明显的相似性,在不同生物体或同一机体内行使相同或相似功能的蛋白质。
  • 蛋白质工程:以蛋白质分子的结构规律及其生物功能的关系作为基础,通过化学、物理和分子生物学的手段进行基因修饰或基因合成,对现有蛋白质进行改造,或制造一种新的蛋白质,以满足人类对生产和生活的需求。

2、背景

2.1 蛋白质

蛋白质的本质是有一系列共价键衔接起来的氨基酸分子链,如下图所示,构件蛋白质的氨基酸有20种,通过特定的序列空间构型形成了复杂的蛋白质结构。理论上这种离散的序列被称为蛋白质的一级结构(蛋白质的一级结构(primary structure)就是蛋白质多肽链中氨基酸残基的排列顺序(sequence)。但在细胞中,蛋白质是一种复杂的三维大分子结构,这种三维结构对于蛋白质生物特性的理解具有关键的作用。在更复杂的空间构型中,蛋白质的局部几何构型则被称为二级结构,使得蛋白质的不同区段表现出不同的行为特征。而整个蛋白质的全局结构则被称之为三级结构,它决定蛋白质的整体行为。
在这里插入图片描述
作者用25个字符的标准字母表对氨基酸进行编码,其中标准氨基酸20个字符,非标准氨基酸硒代半胱氨酸和吡咯赖氨酸2个字符,模糊氨基酸2个字符,氨基酸未知时1个字符。本文中,作者按照上述氨基酸的表示方式将一个长为L的蛋白质表示为氨基酸序列 ( x 1 , x 2 , . . . . , x L ) (x_{1},x_{2},....,x_{L}) (x1,x2,....,xL)

除了序列形式外,蛋白质是一个有三维结构的分子。蛋白质结构分为:

  • 一级结构:组成蛋白质多肽链的线性氨基酸序列。
  • 二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠。
  • 三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。
  • 四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。
    在这里插入图片描述

了解一级序列如何折叠成三级结构是生物化学的一个基本目标。蛋白质通常由一些较大的蛋白质结构组成,这些序列在金瓜的过程中是保守的,因此具有明确的折叠和功能。

同源蛋白质:氨基酸序列具有明显的相似性,在不同生物体或同一机体内行使相同或相似功能的蛋白质。蛋白质之间的进化关系产生是因为生物体在进化过程中必须保持某些功能,例如复制DNA。进化的过程中与这些功能相适应的蛋白质在生物内流传了下来。尽管蛋白质的结构受到收到烟花压力的制约,但是序列级的变化可能会很大,最终产具有相似结构但序列差别较大的蛋白质。

量化这些进化关系对于防止数据分割之间不希望的信息泄漏非常重要。作者采用的是序列识别,它测量蛋白质比对子序列之间精确氨基酸匹配的百分比。 例如,以25%的序列同一性阈值进行过滤意味着在训练和测试集中没有两个蛋白质具有超过25%的精确氨基酸匹配。 除了序列识别过滤之外,还存在其他方法,具体取决于任务尝试测试的泛化程度。

2.2 用序列比对建模进化关系

在计算生物学中建模序列关系的关键技术是比对。给定一个蛋白质数据库和一个测试时的新蛋白质,基于比对的方法要么使用精心设计的评分系统来进行两两比较,要么使用隐马尔可夫模型(Hidden Markov Model like probability Model),要么使用组合将测试蛋白质与数据库进行比对。 如果找到了良好的对齐方式,则来自对齐方式的信息将直接满足当前任务的需要,或者可以将其输入到下游模型中以供进一步使用。

2.3 半监督学习

由于作者将蛋白质表示为离散的标记序列的形式,并且认为该序列包含有关其结构和功能的重要信息,作者认为可以将预测下一个标记或者掩盖标记的预测作为任务,来进行自监督学习。

3、相关工作

最著名的蛋白质建模基准是聚焦于结构建模的结构预测的关键评估(CASP)。但作者认为单独的结构预测还不足以作为蛋白质建模的基准,因此,作者增加了CASP竞赛中没有包含的任务。

4、数据集

Pfam数据集介绍

蛋白质家族数据库(Pfam)是蛋白质家族的集合,每个蛋白质家族由多序列比对和隐马尔科夫模型描述文件表示。这个数据集构建的灵感来源于Cyrus Chothia的预测:世界上存在1500个左右不同的蛋白质家族,大部分的蛋白质来自于不超过1000个蛋白质家族。所以Pfam的科学意义在于完整和精确地分类蛋白家族和结构域。

4.1 数据集

在这里,作者介绍了他的无监督预训练和监督基准数据集。作者使用Pfam(一个在生物信息学中广范使用的3100万个蛋白质结构域的数据库)作为TAPE的预训练语料库。监督数据集中,作者提供了五个与生物学相关的下游预测任务作为基准,数据集的大小在8000个到50000个训练示例之间变化(有关所有训练,验证和测试集的大小参见下表)。在分训练集和测试集时使用两种方式——随机分组(Random Families)和根据家族进行分组(家族分组,Heldout Families)。
在这里插入图片描述

Task1:二级结构预测(结构预测任务)

  • 定义:二级结构预测是一个Seq2Seq的任务,旨在将每个输入的氨基酸 x i x_{i} xi映射为一个标签 y i ∈ { H e l i x , S t r a n d , O t h e r } y_{i}\in\left\{Helix,Strand,Other\right\} yi{Helix,Strand,Other}。(该氨基酸在二级结构中所扮演的角色,螺旋或是链装)作者使用了来自Klausen的数据集作为训练集和验证集,使用了CB513、CASP12以及TS115这三个数据集作为测试集。
    二级结构:蛋白质二级结构的基本类型有α螺旋、β折叠、β转角和无规卷曲。如血红蛋白和肌红蛋白中含有大量的α-螺旋,铁氧蛋白(ferredoxin)则不含任何的α螺旋。蛋白质中各种类型的二级结构并不是均匀地分布在蛋白质中,不同蛋白质中β折叠和β-转角的数量也有很大的变化。
    如下,从侧面观察这个孔蛋白,左侧是二级结构,右侧为一个氨基酸输入片段(蓝色)和相应的二级结构标签(黄色)
    在这里插入图片描述
  • 影响:二级结构是理解蛋白质功能的重要特征,特别是如果目标蛋白质与已知结构蛋白质在进化上不相关时。
  • 泛化:二级结构预测通常用于为更高级别的模型创建更丰富的输入特征。数据分割在25%的序列一致性下过滤,以测试广泛的泛化。
  • 指标:在CB513数据集进行测试得到的准确率。
  • 试验结果:
    在这里插入图片描述

Task2:接触预测(结构预测任务)

  • 定义:接触预测是成对氨基酸预测的任务,来自于蛋白质 x x x成对的氨基酸 x i , x j x_{i},x_{j} xi,xj被映射为标签 y i j ∈ { 0 , 1 } y_{ij}\in\left\{0,1\right\} yij{0,1},标签表示两个氨基酸是否接触(距离小于8埃)。精确的接触信息提供了强大的全局信息,例如这些信息有助于完整的三维蛋白质结构的稳定建模。数据来源于 P r o t e i n N e t Protein Net ProteinNet数据集。
    在这里插入图片描述
    从正面观察这个孔蛋白,我们显示了一个接触图,其中矩阵中的条目i,j表示序列中位置i,j的氨基酸的距离是否在8埃之内。绿色表示两个非连续氨基酸之间的接触。
  • 影响:精确的接触图提供了强大的全局信息;例如,它们有助于完整3D蛋白质结构的稳健建模。特别令人感兴趣的是中、长距离接触,它们可能相隔12个序列位置,也可能相隔数百个序列位置。
  • 泛化:中远距离接触的丰富性使接触预测成为衡量模型对整体蛋白质环境的理解的理想任务。作者以30%序列同一性来拆分数据。
  • 指标:在ProteinNet CASP12测试集上报告了中远程接触的L/5最有可能接触的预测的准确度,这是CASP中报告的标准度量
  • 试验结果:
    短范围内的接触预测结果。短范围指的是相隔6-11个氨基酸短范围内的接触预测结果。短范围指的是相隔6-11个氨基酸
    中范围内的接触预测结果。中等范围指的是相隔12-23个氨基酸:
    在这里插入图片描述
    长范围内的接触预测结果。长范围指的是相隔24个氨基酸以上:
    在这里插入图片描述

Task3:远程同源性检测(进化理解任务)

  • 定义:这是一个序列分类任务,输入蛋白质 x x x被映射为一个标签 y ∈ { 1 , . . . , 1195 } y\in\left\{1,...,1195\right\} y{1,...,1195},这些标签代表着蛋白质的折叠类型。
    在这里插入图片描述

  • 数据集:16712个蛋白质,涵盖7个主要结构类别,共有1195个已鉴定的折叠。每个折叠中的蛋白质数量非常不均匀,其中5%(即61 / 1,195)折叠均具有> 50的蛋白质,26%(即314 / 1,195)折叠均具有6至50的蛋白质,而69%(820 / 1,195) 每个具有<= 5个蛋白质,使其难以训练分类器准确预测所有折叠,尤其是蛋白质序列少的小折叠。 所有类别中的蛋白质的序列长度在9至1,419之间,并且大多数长度在9至600之间。参数信息如下所示:
    在这里插入图片描述

  • 影响:远程同源物的检测在微生物学和医学中引起了极大的兴趣。 例如,用于检测新兴的抗生素抗性基因和发现新的CAS酶

  • 泛化:远程同源性检测可衡量模型检测跨远距离相关输入的结构相似性的能力。 我们从训练集中支持整个进化组,迫使模型对较大的进化差距进行归纳。

  • 在对应数据集上的分类准确度
    在这里插入图片描述

Task 4:荧光景观预测(蛋白质工程任务)

  • 定义:荧光景观预测(如下图)是一个回归任务,其中每个输入蛋白x映射到一个标签y∈R,对应于蛋白质x的对数荧光强度,荧光预测任务测试了模型区分非常相似的输入的能力,以及推测未知突变组合的能力,
    图中,点代表蛋白质,有向箭头 x → y x\to y xy代表着表示y与母体p的距离比x多出一个突变。作者在亲本绿色荧光蛋白(GFP)的小邻域上训练,然后对更远的蛋白质进行测试。(荧光预测任务测试了模型区分所有相似输入的能力,以及其泛化到看不见的突变组合的能力。 训练集是亲本绿色荧光蛋白(GFP)的汉明距离3邻域,而测试集具有带有四个或更多突变的变体。)

在这里插入图片描述

  • 指标:在测试集上得到的斯皮尔曼提出的ρ(秩相关系数)。
    在这里插入图片描述

Task 5:稳定性景观预测(蛋白质工程任务)

  • 定义:是一个回归任务,其中每个输入蛋白x被映射到一个标签y∈R,测量在最极端的情况下,蛋白x将其折叠保持在浓度阈值以上(代表内在稳定性)。设计稳定的蛋白质对于确保药物在被降解之前被输送到靶点位置是很重要的;该实验的训练集由四轮实验设计中所有的蛋白质组成,测试集包含了最佳候选蛋白质的distance-1 neighbors邻域。稳定性包括整体稳定性以及拓扑学分解的稳定性。
    在这里插入图片描述
  • 试验结果:
    整体稳定性预测结果在这里插入图片描述
    蛋白质拓扑稳定性预测结果:
    在这里插入图片描述

5、模型与实验设置

损失函数:

  • next-token prediction:作者采用了双向的token预测 p ( x i ∣ x 1 , . . . , x i − 1 ) 与 p ( x i ∣ x i + 1 , . . . , x L ) p(x_{i}|x_{1},...,x_{i-1})与p(x_{i}|x_{i+1},...,x_{L}) p(xix1,...,xi1)p(xixi+1,...,xL)
  • masked-token prediction: p ( x m a s k e d ∣ x u n m a s k e d ) p(x_{masked}|x_{unmasked}) p(xmaskedxunmasked)

蛋白质特异性损失函数:研究表明对模型执行进一步监督模型的预训练可以提供显着的好处。

模型架构与训练:

  • 作者评估了几个具有代表性模型的性能:
    Transformer(有预训练):12层Transfomer,隐藏单元为512,8个attention-heads ,模型的参数量为38M。以masked-token prediction为损失函数进行训练。
    LSTM:与ELMO相似,两个三层的含有1024个隐藏单元的LSTM组成的双向模型,输出层的结果会拼接在一起作为最终输出。以next-token prediction为损失函数进行训练。
    ResNet:35个残差块,每个残差块包含两个卷积层和256个滤波器,内核大小为9,膨胀率(dilation)为2。以masked-token prediction为损失函数进行训练。
    除了以上的三种模型外,作者还添加了两个之前提出的架构进行了基准测试,它们与上面三个架构有很大的不同。第一个的架构为两层的双向LSTM(类似于ELMO)后接三个隐藏单元为512的双向LSTM(架构如下所示)。
    在这里插入图片描述
    第二个UniRep,是一个具有1900个隐藏单元的单向mLSTM。这两个模型都以next-token prediction为损失函数进行训练。

试验结果如下:
在这里插入图片描述
Baselines:作者将另外两种特征作为基准特征进行了实验。第一种是氨基酸序列的one-hot编码。此外,目前大多数用于蛋白质建模的最新算法都利用了比对或基于HMM的输入。 比对可以转化为各种特征,例如每个氨基酸位置的突变概率或HMM状态转变概率。这两种都是非神经网络的方法。作者将基于比对的信息与one-hot编码相连形成新的输入特征。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值