浙大团队撰写75页科学语言大模型综述,全面梳理Sci-LLMs最新研究进展

这篇75页的综述由浙江大学团队撰写,全面梳理了Sci-LLMs在生物、化学领域的最新进展,涵盖文本科学、分子、蛋白质、基因及多模态模型。文章讨论了数据、模型、评估方法和未来研究方向,旨在促进AI在科学领域的应用。
摘要由CSDN通过智能技术生成

7a5495f578c80fc06baa6005b405d3d1.gif

大型语言模型(LLMs)已成为推动自然语言理解能力变革的关键力量,标志着人工智能通用性方面的重大突破。LLMs 的应用已超越传统自然语言的范畴,覆盖了各类科学学科中开发的专用科学语言系统,从而推动了科学语言大模型(Sci-LLMs)的诞生。

作为科学人工智能领域的崭新方向,Sci-LLMs 值得深入研究。然而,目前关于 Sci-LLMs 的进展调查尚属不足。本综述从生命科学和物质科学等视角,围绕生物和化学两个领域全面回顾和梳理了 Sci-LLMs 的最新进展,着重分析了针对文本科学知识、小分子化合物、大分子蛋白质、基因组序列以及多模态科学数据的 LLMs,共计 75 页,引用了 300 余篇参考文献。

综述由浙江大学杭州国际科创中心生物与分子智造研究院 AI 交叉中心团队组织撰写,参与人员来自浙江大学计算机科学与技术学院、浙江大学化学与生物工程学院、浙江大学药学院、之江实验室等多个跨学科单位。

c9c57e4a1551b762c03d674972a10bc2.png

论文链接:

https://arxiv.org/pdf/2401.14656.pdf

相关文献列表:

https://github.com/HICAI-ZJU/Scientific-LLM-Survey

33832ce8e4c9c4273789b45282fcf803.png

▲ 图1. 分子、蛋白、基因语言的示例图

这篇综述系统地回顾了 Sci-LLM 的技术发展,从生物化学领域研究方向出发,全面总结了五个具体研究主题:

  • 文本科学大语言模型

  • 分子大语言模型

  • 蛋白质大语言模型

  • 基因组大语言模型

  • 多模态科学大语言模型

每个主题都分别从模型、数据集、评估、总结四个方面展开描述。

d456e6b7c3715bda4e6066176a68fef8.png

▲ 图2. 本综述的Sci-LLMs研究范围

2f25e1ae39633af42bb6cc2a5710a4f3.png

▲ 图3. 本综述的科学大语言模型的进化树

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值