MindSpore AI科学计算系列 | 探索多种AI大模型:自然语言与生物信息的完美交汇

背景

生物分子在科学研究中扮演着非常重要的角色,它们参与到生化反应和细胞功能中。而蛋白质则有许多功能,比如提供结构支持、促进化学反应以及传递信号。正因如此,科学家们将生物分子视为现代生物研究的基石。

虽然我们已经有了一些模型可以捕捉生物分子的特征,但它们通常没有充分利用外部知识。最近,科学家们开始将自然语言处理和计算机视觉技术结合起来,开发了一些新模型。这些新模型能够更全面地理解生物分子的功能、性质和活动。它们在预测生物分子的性质和搜索分子方面取得了重大进展。

通过将生物分子的结构和功能与自然语言中的描述相结合,我们可以更好地理解和分析生物分子。这种方法可以利用文本数据中丰富多样的生物分子描述,从而加深我们对生物分子的理解,并实现一些计算任务,比如预测生物分子的性质。中国人民大学高瓴人工智能学院、微软、中科大等机构联合发表的论文《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》对这一领域的相关问题和方法进行了总结和讨论。

1、方法

1.1 表达类型

image.png

图1. 文本、分子和蛋白质模态的不同表征

这篇综述论文介绍了关于生物分子的不同技术表示方法,涵盖了文本、分子和蛋白质三个方面。对于文本,自然表示是一维序列,使用标记来表示。而对于分子,有多种一维表示方法,包括SMILES、IUPAC名称和SELFIES等。二维分子图以原子为节点,化学键为边。在三维结构方面,生物分子的构象表示了在结构空间中的分子构象,每种分子存在许多构象。对于蛋白质,常用的一维表示是FASTA序列,而二维表示通常指的是蛋白质的二级结构,它在二维结构空间中被视为一种简化表示,与蛋白质的三维结构表示有密切关系,而蛋白质的三维结构对于考虑蛋白质功能至关重要。此外,综述论文还总结了生物分子的序列表示方法,包括DNA、RNA和蛋白质序列,以及它们的二维图形表示和三维结构表示。

1.2 跨模态整合

跨模态整合的直觉在于将不同模态的文本、蛋白质和分子表示融合成一个封装的句子,其中包括自然语言描述、蛋白质FASTA序列和分子的SMILES序列。因此,通过跨模态整合,蛋白质序列和分子序列的理解将得到加强,因为它们受到了带有丰富上下文信息的自然语言描述的影响。此外,分子的文本名称与其SMILES序列的映射,以及蛋白质的名称与其FASTA序列的映射,也可以通过结构化数据的封装来学习。理想情况下,所有三种模态的表示都能够更好地被捕捉。跨模态整合的原理包括对齐、融合和上下文化。模型在进行跨模态整合训练时有不同的目标。我们列举了三个目标:

(a) 建立强大的表示模型,可用于不同的任务。通常的做法是预先训练一个强大的表示模型,然后在各种下游任务中进行微调,比如生物分子属性预测。

(b) 指令跟随要求跨模态整合模型具有强大的泛化能力,它需要首先在多个不同的任务上进行训练,并且能够理解新任务和任务指令,从而在不进行进一步训练的情况下解决新任务。

(c) 一个重要的目标是使模型能够在生物分子领域作为智能助手或代理人,并能够与用户进行交互并进行对话以帮助解决用户的问题。这种聊天机器人需要模型通过有效的跨模态整合方法对生物分子和文本具有深入的知识。

image.png

图2. 模型不同的目标

1.3 学习框架

不同学习框架下的模型架构包括:单编码器和单解码器模型,通用的编码器-解码器(encoder-decoder)结构,双/多流框架,以及层次化集成生物分子编码器和单解码器的模型。这些模型旨在实现多模态神经网络、图神经网络和基于Transformer的模型,用于处理文本和生物分子数据。

image.png

图3. 不同学习框架的模型架构

1.4 Representation learning

在表示学习中,存在着不同的训练任务(如图4所示):

(a)遮蔽语言建模(MLM)是BERT等基于编码器的模型中广泛采用的训练方法。 

(b)下一个标记预测是GPT系列等模型采用的训练任务,如今由于GPT的成功,这是目前最流行的预训练任务。 

(c)跨模态对比学习(CMLM)和跨模态匹配(CMM)是专门为跨模态整合定义的两种表示学习方法,首次出现在BLIP2中。这两种训练方法的区别在于自注意力机制的不同关注方式。具体来说,在CMM中,生物分子标记(B)和文本标记(T)互相关注,而在CMCL中,B和T只关注各自的标记。 

(d)自对比学习(SCL)是一种特殊的训练方法,仅适用于单模态,通常是生物分子,用于学习每个生物分子的独特表示。

文章还详细探讨了生物分子和自然语言之间的跨模态整合中的表示学习方法。

image.png

图4. Representation learning中的不同训练任务

1.5 应用

文章在应用部分详细探讨了生物分子和自然语言之间的跨模态整合的实际应用。这些应用包括药物发现与设计,利用整合的生物分子结构信息和自然语言描述来增强药物发现,并预测药物-蛋白质相互作用,识别潜在药物靶点,优化药物候选物。另外,生物功能预测方面,通过整合表示来预测蛋白质功能、通路和相互作用,从而增进对生物过程和系统的理解。生物医学文本挖掘利用自然语言描述从科学文献中提取相关信息,提高生物医学知识的提取和注释。生物数据整合则使用跨模态技术整合多样的生物数据源,例如基因组学、蛋白质组学和临床数据,促进全面的分析和解释。在个性化医学方面,将患者特定的分子数据,如基因组数据,与临床描述相结合,实现个性化治疗建议。最后,生物图像分析将基于图像的特征,例如显微镜图像,与文本描述融合,以提高图像分类和理解的准确性。

image.png

图5. BBBP数据集中分子属性预测任务的示例

2、机遇与挑战

文章在挑战与机遇部分详细讨论了生物分子与自然语言跨模态整合所面临的挑战和机遇。具体包括以下方面:

数据不平衡:生物分子和自然语言数据之间的不平衡可能导致模型性能下降,可通过采用适当的采样策略和数据增强技术来解决。

模态不匹配:生物分子和自然语言表示不一致可能导致整合困难,需要设计有效的模态对齐方法以确保数据有效交互。

多模态表示的复杂性:整合生物分子和自然语言的多模态表示需要考虑不同数据源的特点和维度,需要设计合适的表示学习方法以捕捉不同模态之间的关联。

缺乏标注数据:跨模态整合的训练需要大量标记数据,可探索半监督和自监督学习方法利用未标记数据。

实际应用的挑战:在实际应用中,需要解决特定任务的挑战,需要进一步研究和开发适用于不同领域的方法。

机遇:跨模态整合为生物学、药物发现、医学等领域提供了新机遇,可改善生物分子属性预测、药物设计和个性化医学。

3、总结与感想

该综述提供了对生物分子与自然语言整合新兴领域的全面审查。首先详细介绍了各种生物分子表示形式,如图和序列,突出了它们在生物研究中的重要性。然后探讨了整合背后的直觉和目标,强调了将生物分子数据与自然语言相结合的好处,以增进理解和获得新见解。接着,深入探讨了不同的学习框架,如基于GPT的训练和多流模型,并探讨了表示学习的复杂性,涵盖了训练任务和策略等方面。还展示了该整合方法在各种应用中的益处。此外,收集了关于数据集/基准、模型和代表性基准摘要的资源,以促进该领域的研究与发展(详情资源见原文)。并提出尽管取得了显著进展,但该领域仍面临着一些挑战,需要未来进一步努力。

该综述引发了对跨学科研究潜力的思考。多模态学习为生物信息学和医学领域带来了新的发展方向。该综述着重于生物分子数据与自然语言数据相结合,有助于更深入地理解生物过程、疾病机制以及药物作用。在这之中,数据选择和特征表示在研究中至关重要,如何有效地表示生物分子和自然语言数据,以便模型学习,是一个关键问题。对于模型架构和训练策略的选择,在多模态学习中需要综合考虑生物分子和自然语言数据之间的关联性。LLM结合多模态技术,对药物发现、疾病诊断和治疗等领域具有广泛的应用前景。通过多模态学习,我们可以更深入地挖掘生物信息,为医学研究和临床实践提供更准确的指导。

参考文献

[1] Pei, Q., Wu, L., Gao, K., Zhu, J., Wang, Y., Wang, Z., ... & Yan, R. (2024). Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey. arXiv preprint arXiv:2403.01528.


往期回顾

MindSpore AI科学计算系列 | 昇思MindSpore复数分布式并行实现探究

MindSpore AI科学计算系列 | 三维形状表征

MindSpore AI科学计算系列 | 生成扩散模型DiffDock显著提升分子对接准确率

MindSpore AI科学计算系列 | MeshGPT显著提升三维几何表示的质量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值