山东大学项目实训纪实 2024.4.5

本文综述了生物分子和自然语言通过多模态学习进行联合建模的研究进展,强调了深度学习在表征、应用和挑战中的作用,介绍了主要的模型框架,如Transformer、双/多流模型和PaLM-E风格模型。
摘要由CSDN通过智能技术生成

为了调研生物大模型的有关背景,阅读了文章<Leveraging Biomolecule and Natural Language
through Multi-Modal Learning: A Survey>,下面是对该文章的总结。

随着大模型和 AI4Science 的蓬勃发展,越来越多的工作开始关注生物分子(Biomolecule)与自然语言(Language)的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述,增强模型对其的理解,提高生物分子属性预测等下游任务的效果,为全面表示和分析生物分子开辟了新的途径。

近日,人大高瓴联合微软、华科、中科大等机构发布了综述文章:《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》[1]。该综述从生物分子的表征方式、建模目标、表示学习、应用场景等方面出发,系统地总结了相关工作,以及可用的数据、代码、模型、benchmark。

1.Background背景

目前,生物分子可以用各种形式来表示,以计算模拟它们的结构和性质。)线性分子的smiles  蛋白质的fasta  2d图,图神经网络,3维坐标来表示,这些基于深度学习的表示方法可以从不同的抽象层次捕获内在的生物分子特征,但它们往往忽略了external knowledge,如生物医学文献和数据库。这些外部知识来源提供了对生物分子广泛的多面文本描述,提供了孤立分子表示所缺少的语言上下文。所以需要将deep learning based representation methods 和 external knowledge 结合起来,进行jointly modeling biomolecules and natural language via approaches(联合建模生物分子和自然语言)

【随着强大的语言模型,特别是像gpt-4这样的大型预训练语言模型(llm)的发展,通过方法联合建模生物分子和自然语言取得了重大进展。但该领域目前缺乏一个统一的资源来全面调查进展和各种正在开发的方法。】

所以本篇文章对生物分子和语言的跨模态集成进行了广泛的回顾,这篇文章的目标是让生物学、化学和人工智能交叉领域的跨学科人员深入了解这一快速发展的研究领域和当前技术,挑战和未来方向。

这篇文章首先对近几年已有的生物大模型进行了汇总

同时对模型进行了分类

2.Bio Molecule Representations 生物分子的多种表示方法

目前生物分子表示技术有很多种,一般来说,文本、分子和蛋白质的模态有着不同的表征方式:包括1D序列,2D图,3D结构等

文本通常使用一维序列来表示。使用语言描述即可。

对于生物分子来说,通常有一维序列、二维图和三维结构的表示。另外,还有一些其他的表示,例如分子图像、分子指纹、蛋白质的 GO term 等等。1D序列最常见的有smiles、iupac(U派克)、selfies。【smiles:最常见的一种是SMILES,即简化分子输入行输入系统,SMILES将分子编码为字符串,原子由元素符号表示,键由特定字符表示,分支和环由数值指标表示。】【图中所讲的IUPAC(International Union of Pure and Applied Chemistry)是一种系统的化合物命名方法  SELFIES 自拍照采用规定的语法,确保生成有效的分子结构,并且这些分子结构能够完全覆盖整个分子图空间。】2D图一般把原子看作是节点,化学键是边

3D结构是将原子建模为具有相关坐标位置的节点来编码有价值的空间信息【图中分子构象(Molecular Conformation)指的是分子在三维空间中的特定排列和姿态。它描述了分子中原子之间的相对位置和连接方式,以及键角、键长和扭转角等几何参数的取值。】

对于蛋白质来说,1D序列常用FASTA格式[3],用单字母编码表示氨基酸或核苷酸,以达到简洁和标准化的目的。2D图使用二级结构来说明,【图中的二级结构(Secondary Structure)是指蛋白质和核酸中出现的局部折叠模式或基序。它描述了蛋白质中氨基酸残基的规律排列或核酸中核苷酸碱基的排列方式,而不考虑分子的整体三维形状。二级结构的两种最常见类型是α螺旋(alpha helix)和β折叠(beta sheet)。

α螺旋是一种右旋螺旋结构,由蛋白质链内部的氢键形成,使蛋白质链具有螺旋形状。β折叠是由多个β链段(或β链)相互平行或反平行排列而形成的结构,通过氢键连接在一起。除了α螺旋和β折叠,还存在一些其他的二级结构元素,如β转角(beta turn)和无规卷曲(random coil)。】同时蛋白质也可以将3D序列或1D序列转化为2D图来进行表示【(一种常用的技术预测从一维氨基酸序列或三维结构的成对残基接触图,用距离阈值来描绘相互作用。然后,这个接触图作为构建图的基础,其中每个节点代表一个氨基酸,边缘反映残基之间预测的空间或进化接近度。另一种方法采用蛋白质二级结构[117]构建图,其中节点对应氨基酸,边缘代表线性连接这些氨基酸的肽键和对二级结构的形成和稳定性至关重要的氢键)。】3D结构则通常使用Cα碳的位置、每个氨基酸的四个主链原子(N, Cα, C, O)或一个完整的原子表示来编码。

3.STORY BEHIND INTEGRATION

生物分子和自然语言的交叉建模可以克服传统生物分子表示方法的局限性,通过整合生物分子和语言的建模,模型可以利用广泛的生物知识来进行生物分子的相关任务,从而实现对分子更细致的控制和生成。

这张图就是对交叉建模的直观理解,这里1D序列作为例子,说明了文本、蛋白质、分子三个不同的模态数据是如何被整合在一起,形成一个包含自然语言描述、蛋白质fasta序列和分子smiles序列的句子。这种整合使得蛋白质序列和分子序列的理解能够通过丰富的上下文信息得到增强。

4.LEARNING FRAMEWORK

目前,生物联合交叉建模的领域中,主要的几个主流框架有:Transformer、Dual/Multi-stream Model、PaLM-E-style Model

1.Uni-Encoder(单编码器)和Uni-Decoder(单解码器):

这些模型采用Transformer编码器/解码器结构,分别用于理解和生成任务。Uni-Encoder模型专注于处理生物分子和文本的输入序列,通过双向自注意力实现深入理解输入,适用于需要对输入进行深入理解的任务,如情感分析和NLP中的特征提取。Uni-Decoder模型则采用因果注意力,专注于先前标记的序列,通常用于生成任务,例如生成与给定分子匹配的文本描述或反向任务。

2.Dual/Multi-Stream Framework(双/多流框架):

这种框架利用两个或多个编码器进行表示训练,是不同编码器的组合,这些编码器具有来自不同模态的专门编码,通常包括多个专门编码器来处理不同的数据模态,每个编码器对应一个模块,例如在文本编码器和生物分子编码器之间进行对比训练。通过这种方式,模型可以同时学习不同模态之间的关系,从而提高对跨模态数据的理解和处理能力。

它是不同编码器的组合,这些编码器具有来自不同模态的专门编码,通常包括多个专门编码器来处理不同的数据模态,每个编码器对应一个模态,比如文本、生物分子或知识图谱(KG)嵌入。这种设计利用了单模态预训练模型,这些模型擅长捕捉特定模态的特征。通过在融合之前独立地使用专家对模态进行嵌入,多流模型保留了这些捕获的模态特定信息。双/多流模型通过单模态专家有效地捕捉模态细微差异,同时仍然学习模态空间之间的映射。这为下游多模态任务提供了一个灵活的框架,通过促进不同领域知识的交叉传播。

3.Encoder-Decoder(编码器-解码器):

标准的Transformer及其变体采用编码器-解码器框架,其中编码器处理和上下文化输入序列,解码器根据这个编码的上下文生成输出。在生物分子和文本交叉建模的情景中,编码器利用双向注意力实现更全面的生物标记和文本标记之间的交互,从而实现对输入序列的更深入理解。

4.PaLM-E-Style:

这种风格最初由Google引入,将生物分子编码器和单解码器以层次化方式整合在一起,并借助内部投影仪。交叉模态投影器被训练以从生物分子编码器中提取与文本相关的分子特征(图6e中的虚拟标记),从而使语言模型能够理解生物分子。鉴于生物分子本质上具有1D序列表示,单解码器也可以处理这些序列标记以及虚拟标记,从而丰富了对生物分子的多维理解。因此,PaLM-E-style模型不仅可以有效利用预训练的生物模型,还可以使语言模型处理复杂的2D/3D生物分子图/结构。这种结构允许模型在处理生物分子和文本数据时更好地捕捉关键特征和信息,从而提高模型的性能和效率。

5.REPRESENTATION LEARNING

主要讨论了在生物分子和文本数据上进行BL预训练的流行任务和策略。

目前的training tasks有MLM、NTP、CMA、SCL

(a) 掩码语言建模(MLM):MLM是BERT等模型中广泛采用的训练方法。在MLM中,模型需要根据上下文来预测被掩盖的标记,从而提高对语言的理解能力。

Masked Language Modeling (MLM):MLM任务最初由BERT引入,通过在输入序列中掩盖特定标记,要求模型根据周围未掩盖标记提供的上下文来预测这些掩盖的标记。T5框架将MLM融入编码器-解码器架构中,通过替换输入中的连续标记范围并构建输出,从而使模型能够在生物医学文本(biotext)中解密生物分子提及(如实体名称)与其上下文叙述之间的复杂关系。

(b) 下一个标记预测:这是GPT系列模型采用的预训练任务,目前是由于GPT的成功而变得最受欢迎的预训练任务。模型需要预测序列中下一个标记,以学习序列的上下文信息。

(c) 跨模态对比学习(CMLM)和跨模态匹配(CMM):这两种方法是专门为跨模态建模定义的表示学习方法,首次在BLIP2中引入。在CMM中,生物分子标记(B)和文本标记(T)相互关注,而在CMLM中,B和T只关注自己的标记。这些方法旨在帮助模型更好地理解生物分子和文本之间的关联。

(d) 自对比学习(SCL):这是一种特殊的方法,仅适用于单模态,通常用于学习每个生物分子的独特表示。通过自对比学习,模型可以学习生物分子的特征,从而更好地理解和处理生物分子数据。

  • 18
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值