【论文阅读】Controllable protein design with language models

Controllable protein design with language models (正式发布版没有权限读,因此读的是arxiv版的)

结论:
本文主要介绍了NLP领域的技术特别是transformer在蛋白质领域的应用,读完本文对整个领域有了大致的了解和掌握

1、导言

蛋白质是生命的通用构建块,在基本上每一个细胞过程中都起着重要的作用。以快速、高性价比的方式定制、高效、定制的蛋白质将有可能应对当今和未来人类所面临的许多挑战。例如,我们可以设计出代谢塑料废物或水解污染毒素的酶,或者在发生大流行病时及时生产新疫苗。尽管取得了很大的进步,但当代的研究仍然远远没有设计出与自然产生的蛋白质一样精通的蛋白质。
蛋白质设计寻求创建执行所需功能的定制结构。这个巨大的挑战经常被称为逆向蛋白质折叠问题:目标不是找到一个序列折叠的结构,而是得到一个采用一定倍数的最优序列。该问题的数学上是利用优化算法来搜索能量函数定义的全局最小序列-结构格局。尽管使用最广泛的能量功能相对简单2,但是每个位置的旋转器数量和可能的组合会促进组合爆炸,并且可以理解大多数蛋白质设计包依赖于启发式算法。由于这种复杂性,并且尽管最近取得了显著进步,新蛋白的设计通常需要相当长的时间和精力。
研究蛋白质结构的物理化学功能研究了蛋白质的设计问题,其中最突出的一个特性是蛋白质在其氨基酸序列中完全编码其结构和功能。在没有生物物理约束的情况下,单靠序列就可以捕获蛋白质的性质,这就为利用自然语言处理(NLP)方法进行蛋白质研究打开了未探索的大门

1.1 蛋白质语言

几个特征证明了人类语言和蛋白质序列的相似性,其中最明显的可能是它们的层级组织。类似于人类语言,蛋白质由字符串的连接表示:20个标准氨基酸。然后字母组装以形成文字,氨基酸结合以形成二次结构单元或保守的蛋白片段4。然后,当单词结合起来形成携带意义的句子时,片段可以组装成携带函数的不同蛋白质结构(图1a)。
语言和蛋白质的起源和演化也显示出许多相似性。语言的成长和不断适应,语言的涌现能更好地反映我们不断发展的社会。如今,有超过8000种语言被划分为140多个语言家族,这些语言家族起源于5万至7万年前在中部非洲使用的一种共同祖先语言。同样,所有生活在地球上的生物都有一个(最后一个)共同的祖先:40亿年前生活的微生物。Alva等人在语言方法的启发下,通过比较现代语言来重构古代词汇,发现了一组可以追溯到LUCA之前的原始肽。这些肽已经在非常不同的蛋白质上下文中在蛋白序列空间中重复使用,相当于当今现代语言的祖先是什么?
在这里插入图片描述

(a)蛋白质序列(初级结构)由它们的字母“20个标准β”氨基酸的字符串联表示。这些氨基酸形成诸如α-螺旋和β-薄片等三维二级结构单元。蛋白质区进一步组装到更大的四级复合物,类似于句子构建文本。(b)语言和蛋白质之间的相似性跨越其他例子。句子中的Typos可能是致命的,就像蛋白功能的误义突变一样。句子和序列可以排列,保留其含义和功能,语法上正确的句子不能确保逻辑意义,比如折叠结构不能保证功能。

在人类语言中,词与相邻词之间的关系和相互作用与氨基酸的顺序环境是一样的。然而,

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值