主题
蛋白质交流的艺术:ProLLM用'思维链'重新定义蛋白质相互作用预测!
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction
嘉宾
![a33d974c4670ebd92a26be5e8e11da25.png](https://img-blog.csdnimg.cn/img_convert/a33d974c4670ebd92a26be5e8e11da25.png)
金明宇 英国利物浦大学本科, 现罗格斯大学博0在读。
研究方向: AI for Science, 大模型可解释性, 大模型安全问题, AI Agent, 图神经网络。
发表成果: ACL, AAAI.
薛皓辰 英国利物浦大学本科大四。
研究方向: AI for Science, 图神经网络。
发表成果: IJCNN。
内容
PPI (protein-protein interaction) 任务的背景介绍
以前PPI任务的模型的简要介绍
ProLLM的详细内容
总结与展望
Q&A
研究背景
蛋白质-蛋白质相互作用(PPI)在所有生物体的各种生物过程中扮演着关键角色,对生物医学、遗传学和制药研究尤为重要。为了研究PPI,生物领域已经提出了许多实验方法,例如酵母双杂交技术和定量蛋白质组学方法。然而,这些实验方法通常耗时且费力,凸显了对更精确和高效的计算工具的需求。
近年来,计算生物学发展迅速。卷积神经网络(CNN)和图神经网络(GNN)等方法已经成为研究蛋白质相互作用的强大工具。基于CNN的方法如TAG-PPI,通常使用预训练的嵌入模型将蛋白质序列转换为数值向量表示,然后采用一维卷积神经网络从向量中提取特征,以进行后续的PPI任务。
尽管CNN方法在PPI预测中表现出了一定的效果,但由于其特征提取范围固定,且蛋白质序列中缺乏明确的空间关系,限制了预测的准确性和解释性。基于GNN的方法如GNN-PPI,将蛋白质视为节点,将它们的关系视为边,构建由蛋白质组成的网络,更好地捕捉了蛋白质之间的关系和相互作用,并在蛋白质相互作用预测中优于CNN。然而,尽管GNN能够有效提取网络结构信息,但它们忽略了没有直接物理相互作用的蛋白质之间的非物理连接,导致在学习蛋白质链方面不如基于Transformer的模型表现好。此外,GNN不能完全捕捉生物体中信号传递过程中的关系和动态变化,限制了其在PPI预测中的表现。
继GNN和CNN方法之后,大语言模型(LLM)也被应用于PPI领域,如ProBert和ProteinLM。只要这些模型能够获得蛋白质表示,我们就可以使用表示的直接余弦相似度或训练一个MLP进行PPI预测。然而,这些方法仍然无法捕捉蛋白质之间的链关系,例如信号传导途径。此外,以往文献仅使用LLM作为特征提取器。最近,使用LLM作为链路预测器显示它可以更好地捕捉知识图谱任务中节点之间的关系信息,其性能超过了传统的GNN基线。因此,引入LLM进行蛋白质-蛋白质相互作用(PPI)任务是很有前景的,因为PPI任务中最重要的生物信号是蛋白质的链关系,即信号传导途径。
为了解决这一问题,我们提出了ProLLM,其关键思想如图1所示,现有方法与ProLLM之间的区别如图2所示。现有方法只关注单一的蛋白质-蛋白质相互作用,忽略了应用蛋白质链来预测信号传导途径中的PPI。而我们使用大型语言模型来学习信号传导途径的规律,并使LLM能够直接预测蛋白质之间的相互作用类型。
信号传导途径解决了传统方法忽略蛋白质之间全局非物理连接的问题。信号传导途径通常从一个上游蛋白质开始,通过几个中间体向下游蛋白质传递生物信号,因此需要考虑多个蛋白质相互作用的累积效应。这一系列的相互作用形成了顺序链。因此,我们提出了Protein Chain of Thought (ProCoT)来克服在理解信号传导途径和蛋白质功能方面的限制。ProCoT是一种模拟信号传导过程的数据格式,使用思维链方法,从而能够在信号传导途径问题中预测蛋白质相互作用。CoT可以逐步表达思维过程,形成推理链,而ProCoT进一步将这一原则扩展到蛋白质相关领域,以模拟蛋白质信号传导途径,使LLM对蛋白质有更深入的理解。
此外,我们的方法通过用蛋白质信息嵌入替换标准语言模型嵌入,解决了LLM对蛋白质理解不佳的问题。当我们在提示中处理蛋白质名称时,我们用ProtTrans的嵌入替换其原始嵌入,因为其嵌入包含蛋白质的结构信息。我们还在蛋白质知识数据集上进行指令微调,以将蛋白质领域知识注入LLM。通过这些步骤,LLM获得了推理蛋白质直接关系的强大能力,如图1所示。它可以回答有关蛋白质关系的问题,这在生物学研究中发挥了重要作用。
时间
周六 2024.6.29 上午10:30-11:30
进群
加小助手,回复nice15进群