ESM-1v:突变对蛋白质功能影响的零样本预测

“effects of mutations on protein function” 指的是突变对蛋白质功能产生的各种影响。蛋白质的功能取决于其氨基酸序列和三维结构,而突变(即 DNA 序列的改变,进而导致蛋白质氨基酸序列的变化)会干扰蛋白质的正常功能。这些影响包括但不限于:增强或减弱蛋白质的活性,例如酶的催化活性;改变蛋白质与其他分子(如配体、底物、蛋白质伴侣等)的结合能力;影响蛋白质的稳定性,使其更容易或更难折叠成正确的三维结构,甚至导致蛋白质错误折叠;还可能影响蛋白质在细胞内的定位和运输等。

对序列变异对功能的影响进行建模,是理解和设计蛋白质的一个基本问题。由于进化将功能相关信息编码进蛋白质序列的模式中,因此可以从序列数据中学习变异效应的无监督模型。到目前为止,常见的方法是针对一组相关序列拟合一个模型。但传统的设定存在局限性,因为针对每个预测任务都必须训练一个新模型。ESM-1v表明,仅使用零样本推理,在无需实验数据的任何监督或额外训练的情况下,蛋白质语言模型就能捕捉到序列变异的功能效应,且性能达到最先进水平。

来自:Language models enable zero-shot prediction of the effects of mutations on protein function,NIPS2021


闲聊:虽然 ESM-1v 是一个强大的蛋白质语言模型,但 AlphaMissense 发表在 Science 的原因主要体现在以下方面:
AlphaMissense 解决了更具体、更重要的生物学问题 🚀
🔬 ESM-1v 是一个通用的突变影响预测模型,而 AlphaMissense 针对 Missense 突变(错义突变)做了精准优化。错义突变(missense mutation) 是遗传病和癌症的重要驱动因素之一,因此专门研究这些突变的影响具有直接的医学应用价值。Science 更关注重大生物医学突破,而 AlphaMissense 直接服务于精准医学和罕见病研究,相比 ESM-1v 的泛化能力,它在实际临床基因组学上的影响更大。
✅ 例子
AlphaMissense 分类了海量人类错义突变,预测了哪些可能是致病的(pathogenic),哪些是良性的(benign)。这些预测可以直接用于遗传病研究和药物开发,与 Science 主题契合。


背景概述

蛋白质具有无数种多样的功能,这些功能构成了生命复杂性。蛋白质序列通过自发折叠形成三维结构,进而经由这种结构编码其功能。蛋白质序列中某些位点的改变是无法被容忍的,因为它们对蛋白质的功能至关重要。而其他位点则共同进化,因为蛋白质的结构和功能是由它们共同决定的。突变可以增强蛋白质的活性、减弱其活性,或者使其活性保持不变。

序列变异的功能效应可以通过深度突变扫描实验来测量。深度突变扫描包含对蛋白质功能进行的数千到数十万次测量,有助于深入了解蛋白质结构和功能的内在限制。由于开展这类实验成本高昂且难度较大,目前深度突变扫描数据的汇总中,最多只涵盖了几十种蛋白质的实验,而人类基因组编码了数万种蛋白质,整个生命之树中还有数百万种蛋白质有待我们去了解。

一个能够了解序列与功能之间关联情况的模型,无需进行实验就能深入解读蛋白质的功能。突变效应的无监督模型可以从序列中学习获得。在进化上相关的一族蛋白质序列中的统计模式蕴含着有关结构和功能的信息。这是因为蛋白质的特性在进化过程中对序列的选择起到了限制作用。

在NLP领域,人们对将模型零样本迁移到新任务上很感兴趣。大语言模型能够解决它们未曾直接接受过训练的任务。最近,蛋白质语言模型在各种结构预测任务中达到了最先进水平。到目前为止࿰

### ESM蛋白质语言模型在生物信息学中的实现与使用 #### 实现细节 ESM(Evolutionary Scale Modeling)蛋白质语言模型通过处理大量未标注的蛋白质序列数据来学习生物学结构和功能。该模型利用无监督学习技术,在超过2.5亿条蛋白质序列上进行了训练,从而能够捕捉到复杂的模式并预测未知的功能特性[^1]。 对于具体的实现方面,ESM-1b是一个基于Transformer架构构建的大规模预训练模型实例。它采用了自回归的方式来进行氨基酸残基级别的建模,并引入了多尺度注意力机制以更好地理解不同长度范围内的相互作用关系。此外,为了提高效率和支持更广泛的下游任务需求,还开发了一系列轻量化版本供研究人员选择适用。 ```python from esm import pretrained import torch # 加载预训练好的esm1b_t33_650M_UR50S模型 model, alphabet = pretrained.load_model_and_alphabet('esm1b_t33_650M_UR50S') batch_converter = alphabet.get_batch_converter() # 准备输入数据 data = [("protein1", "MKQHKAMIVALIVALEGEV"), ("protein2", "KALTARQQEVFDLIRDHISQT")] batch_labels, batch_strs, batch_tokens = batch_converter(data) # 进行推理计算 with torch.no_grad(): results = model(batch_tokens, repr_layers=[33], return_contacts=True) ``` 这段Python代码展示了如何加载预先训练完成的一个具体变体`esm1b_t33_650M_UR50S`以及怎样准备一批待分析的数据样本;最后执行了一次前向传播操作得到表示层特征和其他有用的信息输出。 #### 使用场景 当涉及到实际应用场景时,ESM可以应用于多个领域: - **蛋白质分类**:通过对已知类别标签的小型数据集微调大型预训练模型,可以在新发现但尚未充分表征过的蛋白质之间建立联系。 - **突变效应预测**:借助于强大的上下文感知能力,即使是在非常规位置发生的单核苷酸变异也有可能被准确评估其潜在影响程度。 - **远程同源检测**:由于具备跨越远距离识别相似性的潜力,因此非常适合用来寻找那些表面上看起来差异很大但实际上可能具有共同祖先起源的关系对。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值