本文是LLM系列文章,针对《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》的翻译。
摘要
生物分子建模与自然语言(BL)的集成已成为人工智能、化学和生物学交叉的一个很有前途的跨学科领域。这种方法利用文本数据源中包含的对生物分子的丰富、多方面描述来增强我们的基本理解,并实现下游计算任务,如生物分子性质预测。通过自然语言表达的细致入微的叙述与通过各种分子建模技术描述的生物分子的结构和功能细节的融合,为全面表征和分析生物分子开辟了新的途径。通过将围绕生物分子的上下文语言数据纳入其建模中,BL旨在捕捉一种整体观点,包括通过语言传达的符号品质和数量结构特征。在这篇综述中,我们对通过生物分子和自然语言的交叉建模所取得的最新进展进行了广泛的分析。(1) 我们首先概述所使用的生物分子的技术表示,包括序列、二维图和三维结构。(2) 然后,我们深入研究了语言和分子数据源的有效多模态集成的基本原理和关键目标。这包括探索机器学习框架,如基于GPT的预训练和多流神经网络,以及表示学习的各个方面,如网络架构、训练任务和策略。(3) 随后,我们调查了迄今为止在这一发展中的研究领域中的实际应用,重点关注性质预测、分子描述生成和从文本中检索生物分子数据的用例。(4&#