“effects of mutations on protein function” 指的是突变对蛋白质功能产生的各种影响。蛋白质的功能取决于其氨基酸序列和三维结构,而突变(即 DNA 序列的改变,进而导致蛋白质氨基酸序列的变化)会干扰蛋白质的正常功能。这些影响包括但不限于:增强或减弱蛋白质的活性,例如酶的催化活性;改变蛋白质与其他分子(如配体、底物、蛋白质伴侣等)的结合能力;影响蛋白质的稳定性,使其更容易或更难折叠成正确的三维结构,甚至导致蛋白质错误折叠;还可能影响蛋白质在细胞内的定位和运输等。
对序列变异对功能的影响进行建模,是理解和设计蛋白质的一个基本问题。由于进化将功能相关信息编码进蛋白质序列的模式中,因此可以从序列数据中学习变异效应的无监督模型。到目前为止,常见的方法是针对一组相关序列拟合一个模型。但传统的设定存在局限性,因为针对每个预测任务都必须训练一个新模型。ESM-1v表明,仅使用零样本推理,在无需实验数据的任何监督或额外训练的情况下,蛋白质语言模型就能捕捉到序列变异的功能效应,且性能达到最先进水平。
来自:Language models enable zero-shot prediction of the effects of mutations on protein function,NIPS2021
闲聊:虽然 ESM-1v 是一个强大的蛋白质语言模型,但 AlphaMissense 发表在 Science 的原因主要体现在以下方面:
AlphaMissense 解决了更具体、更重要的生物学问题 🚀
🔬 ESM-1v 是一个通用的突变影响预测模型,而 AlphaMissense 针对 Missense 突变(错义突变)做了精准优化。错义突变(missense mutation) 是遗传病和癌症的重要驱动因素之一,因此专门研究这些突变的影响具有直接的医学应用价值。Science 更关注重大生物医学突破,而 AlphaMissense 直接服务于精准医学和罕见病研究,相比 ESM-1v 的泛化能力,它在实际临床基因组学上的影响更大。
✅ 例子
AlphaMissense 分类了海量人类错义突变,预测了哪些可能是致病的(pathogenic),哪些是良性的(benign)。这些预测可以直接用于遗传病研究和药物开发,与 Science 主题契合。
背景概述
蛋白质具有无数种多样的功能,这些功能构成了生命复杂性。蛋白质序列通过自发折叠形成三维结构,进而经由这种结构编码其功能。蛋白质序列中某些位点的改变是无法被容忍的,因为它们对蛋白质的功能至关重要。而其他位点则共同进化,因为蛋白质的结构和功能是由它们共同决定的。突变可以增强蛋白质的活性、减弱其活性,或者使其活性保持不变。
序列变异的功能效应可以通过深度突变扫描实验来测量。深度突变扫描包含对蛋白质功能进行的数千到数十万次测量,有助于深入了解蛋白质结构和功能的内在限制。由于开展这类实验成本高昂且难度较大,目前深度突变扫描数据的汇总中,最多只涵盖了几十种蛋白质的实验,而人类基因组编码了数万种蛋白质,整个生命之树中还有数百万种蛋白质有待我们去了解。
一个能够了解序列与功能之间关联情况的模型,无需进行实验就能深入解读蛋白质的功能。突变效应的无监督模型可以从序列中学习获得。在进化上相关的一族蛋白质序列中的统计模式蕴含着有关结构和功能的信息。这是因为蛋白质的特性在进化过程中对序列的选择起到了限制作用。
在NLP领域,人们对将模型零样本迁移到新任务上很感兴趣。大语言模型能够解决它们未曾直接接受过训练的任务。最近,蛋白质语言模型在各种结构预测任务中达到了最先进水平。到目前为止