大型语言模型(LLMs)已成为推动自然语言理解能力变革的关键力量,标志着人工智能通用性方面的重大突破。LLMs 的应用已超越传统自然语言的范畴,覆盖了各类科学学科中开发的专用科学语言系统,从而推动了科学语言大模型(Sci-LLMs)的诞生。
作为科学人工智能领域的崭新方向,Sci-LLMs 值得深入研究。然而,目前关于 Sci-LLMs 的进展调查尚属不足。本综述从生命科学和物质科学等视角,围绕生物和化学两个领域全面回顾和梳理了 Sci-LLMs 的最新进展,着重分析了针对文本科学知识、小分子化合物、大分子蛋白质、基因组序列以及多模态科学数据的 LLMs,共计 75 页,引用了 300 余篇参考文献。
综述由浙江大学杭州国际科创中心生物与分子智造研究院 AI 交叉中心团队组织撰写,参与人员来自浙江大学计算机科学与技术学院、浙江大学化学与生物工程学院、浙江大学药学院、之江实验室等多个跨学科单位。
论文链接:
https://arxiv.org/pdf/2401.14656.pdf
相关文献列表:
https://github.com/HICAI-ZJU/Scientific-LLM-Survey
▲ 图1. 分子、蛋白、基因语言的示例图
这篇综述系统地回顾了 Sci-LLM 的技术发展,从生物化学领域研究方向出发,全面总结了五个具体研究主题:
文本科学大语言模型
分子大语言模型
蛋白质大语言模型
基因组大语言模型
多模态科学大语言模型
每个主题都分别从模型、数据集、评估、总结四个方面展开描述。
▲ 图2. 本综述的Sci-LLMs研究范围
▲ 图3. 本综述的科学大语言模型的进化树