浙大Sci-LLMs综述更新!同步发布全新科学大模型知识力评测基准SciKnowEval

c0b91806e7940968e9654a3e75bbcb13.gif

大型语言模型(LLMs)已成为推动自然语言理解能力变革的关键力量,标志着人工智能通用性方面的重大突破。LLMs 的应用已超越传统自然语言的范畴,覆盖了各类科学学科中开发的专用科学语言系统,从而推动了科学语言大模型(Sci-LLMs)的诞生。

今年一月,由浙江大学杭州国际科创中心 AI 交叉中心团队联合来自计算机、生物、化学和药学等多学科团队撰写了一篇 Sci-LLMs 科学大语言模型综述(链接见文末),受到广泛关注。

该综述着重从生命科学和物质科学等视角,围绕生物和化学两个领域全面回顾和梳理了 Sci-LLMs 的最新进展,着重分析了针对文本科学知识、小分子化合物、大分子蛋白质、基因组序列以及多模态科学数据的 LLMs。近期,团队对该综述进行了多项更新,主要包括:

1. 新增了最近半年(2024.1 月-6 月)的最新相关文章,合计新增 100 多篇,总计 430 余篇文章;

2. 新建设了综述论文主页(http://scimind.ai/resource),方便读者对相关文章及数据集进行查询检索;

3. 扩展了文本科学知识、小分子化合物、生物大分子、单细胞等多个层面,涉及酶设计、药物设计、基础医学等领域的最新文献。

此外,研究团队还以该综述为基础,在充分调研和整理 Sci-LLMs 领域评测基准的基础上,全新构建了 SciKnowEval 科学大模型知识力评测框架及评测数据集。SciKnowEval 目前共包含 4 个科学领域(生物,化学,物理和材料),5 个渐进层次,4 种题目类型,72000+ 问题。本文重点对该评测框架及数据集的设计理念、构建方法、以及实验分析进行了介绍。

40e006fc497cb92efa1d59984e0dd89a.png

Sci-LLM Suvey主页:

http://ScienceMind.AI/resource

Sci-LLM Survey论文地址:

https://arxiv.org/abs/2401.14656

SciKnowEval主页:

http://ScienceMind.AI/sciknoweval

SciKnowEval论文地址:

https://arxiv.org/abs/2406.09098

1ea4b3b26ddcdc5905915b351af2baa3.png

SciKnowEval简介

60091137065ba06bf318e08cf26a7f64.png

近年来,随着人工智能技术的迅速发展,大型语言模型已经展现出了强大的理解世界知识的能力。如今,它们的卓越表现已拓展至广泛的垂直领域,包括科学研究领域。多个科学大模型相继被开发用于辅助科学研究,例如 Galactica,SciGLM 和 ChemLLM。科学知识相比于常识知识具有更强的专业性和复杂性,常规的大模型评测基准缺乏针对科学知识的深入考量。

为了稳步推进科学研究的自动化进程,建立专门针对科学知识的评测基准来全面展示这些模型对科学知识的理解和应用能力至关重要。尽管现有通用评测基准如 MMLU,AGIEval 等已将科学问题纳入其评估中,并且 SciBench,SciEval 等多个基准专门针对科学领域量身定制,但这些基准仍然具有一定的局限性:

  1. 大部分传统评测基准(如 MMLU、AGIEval)仅涉及高中水平的问题,缺乏对更高水平专业性更高的科学知识能力的评估;

  2. 一些科学领域基准(如 ChemLLMBench、SciBench、SciAssess)虽然涉及更专业的任务,但缺乏系统、全面、分层次的评估体系,导致对模型能力的了解有限;

  3. 科学大模型的安全性评估可能比之通用领域大模型更具挑战性,然而现有的科学领域评测基准均未针对科学研究中的安全问题提供评测依据。

为了弥补这些缺陷,作者从中国传统的儒家哲学经典著作《礼记·中庸》中汲取灵感,提出了一种全新的科学知识评估框架 SciKnowEval,旨在评估大模型在五个渐进层次上的能力,即”博学之,审问之,慎思之,明辨之,笃行之“。

具体以生物/化学/物理/材料作为 SciKnowEval 的 4 个实例,构建了包含 72K 多层次科学问题和解决方案的数据集,并使用零样本和少样本提示策略对几十个领先的开源和专有大模型进行了基准测试。

结果表明,尽管专有模型取得了最先进的性能,但其在解决科学计算和实际应用方面仍有巨大的可提升空间。我们期望 SciKnowEval 能够为 LLM 在科学研究和发现方面建立一个全面的评估标准,并促进将科学知识与安全意识相结合的 LLM 的发展。

c19fafa365ce051f877026133d334209.png

构建方法

2.1 设计思路:多层级的科学知识

SciKnowEval 的设计理念源于孔子在《礼记·中庸》中阐述的深刻哲理:”博学之,审问之,慎思之,明辨之,笃行之“,体现了从获取知识到应用知识过程中的五个递进层次。本文将大语言模型视为科学家,并利用这一概念来评估他们。具体来说,每个级别都提供了独特视角以评估发语言模型的能力:

  • L1:博学,该维度评估大模型在各个科学领域的知识广度,衡量模型记忆和理解各种科学概念的能力。 

  • L2:审问,该维度侧重于评估大模型在科学任务中进行刨根问底的能力,例如分析科学文本、识别关键概念和质疑相关信息。 

  • L3:慎思,该维度考察模型的批判性思维、逻辑演绎、数值计算、功能预测以及解决问题时的反思性推理等能力。

  • L4:明辨:该维度评估大模型根据掌握的科学知识做出正确、安全和道德决策的能力,包括评估信息的危害性和毒性,以及理解与科学事业相关的道德影响和安全问题。 

  • L5:笃行,该维度评估大模型在现实场景中有效应用科学知识的能力,例如分析复杂的科学问题和提出创新性解决方案。

2.2 数据构建方法

6ccefa2ea842d51ac647c9cd6fc5b5f3.png

1. 从文献语料库中生成全新的问答数据。文献和教科书涵盖了广泛的科学知识,利用这些数据将有助于全面评估大模型在生物和化学科学方面的能力。本文从文章预印本平台(例如 BioRxiv)、文献数据库(例如 PubMed)和教科书数据库(例如 LibreTexts)收集了大量语料。根据领域专家的建议,本文精心设计了有效的提示词,指导大模型从文献和教科书段落中提取相关专业知识,并围绕这些专业知识生成新的问答对。为了确保生成问题的质量评估,提示词中强调答案必须在原文中明确找到,而不引入任何外部信息。

2. 从现有科学基准中重构新的问答数据。本文从现有的开源科学基准中抽取了部分问答题,包括 MedMCQA、SciEval、MMLU 等。为了降低这些基准中数据污染和泄漏的风险,本文指导大语言模型以各种形式重构这些问答题,例如问题重写和选项重新排序。最后,本文利用大模型将缺乏明确级别标注的题目进行自动分类。

3. 从领域数据库中转化新的问答数据。为了增强数据集中任务的多样性和覆盖面,本文选择了多个特定科学任务的数据库,并将它们转换为便于评估的文本格式。这些数据库详细记录了分子(如 PubChem)、蛋白质(如 UniProtKB)和细胞相关(如 SHARE-seq)的序列的结构、性质和功能标注。

本文首先进行初步的质量筛选,例如使用 RDKit 库从 PubChem 中过滤掉化学上无效的 SMILES。然后,我们设计多个问题模板,将结构化的序列-标注对转换为自然语言格式,包括多项选择题和判断题。

2.3 数据集概览

SciKnowEval 共包含 72,063 道科学问题,4 个科学领域,78 个专业任务,5 个渐进层次和 4 种题目类型。下面的表格展示了具体的数据统计信息。

0261c9ebe9f5d50910f05fdf38985a91.png

作者按照领域和能力层次,将 78 个任务进行归类。下表详细展示了每个任务的名称及其相关属性:

f58508beb93f83aeee3d792830bbc053.png

aea66eea1bb7344607ba962095b778fe.png

实验分析

作者评估了 26 个大语言模型(包括通用大模型和科学领域大模型)在 SciKnowEval 的 78 个任务上的表现。由于不同的任务可能使用不同的评估指标(例如选择题使用准确率,而一些生成式任务使用 BLEU 或大模型打分),因此本文采用模型在全部任务上的平均排名作为评价指标。

c1932607d0eb6787171702721f4b368f.png

上述结果表明,专有模型,如 Claude3.5-Sonnet 和 GPT-4o,在这 4 个科学领域得到了相对最高的平均排名,他们在大多数任务和能力层级上都表现出了出色的性能。开源的大模型,包括 Qwen2-72B 和 Llama3-70B,也表现不俗,表明了它们在科学研究应用方面的潜力。

在参数量为 10B 左右的开源模型中,SciKnowMind 是目前的 SOTA,它以 Qwen2-7B 作为底座模型,经过百万级科学指令精调和安全对齐, 这也说明了在科学语料库上做进一步的 SFT 训练是有意义的。需要注意的是,科学领域涵盖了广泛的学科和任务,避免对有限数量的任务进行过度微调(过拟合)至关重要。

在分析各模型在每个任务上的详细表现时,作者也发现即使是表现最好的模型 GPT-4o,也存在着需要进一步提升的方面。例如,GPT-4o 在与分子、蛋白质和细胞序列相关的任务上表现的比较挣扎(主要体现在 L3 和 L5),在科学计算和推理上有较大改进空间。

e8afca4a42bf6b3c7844f9536e2b4129.png

不足及总结展望

本文介绍了一个旨在全面、系统地评估大语言模型科学知识的新颖框架-SciKnowEval,通过定义五个递进的层次来深刻反映大模型掌握科学知识的广度和深度。SciKnowEval 目前专注于生物,化学,物理和材料四个代表性科学领域,在未来的工作中,将涵盖其他科学领域,纳入更多的子任务,并考虑加入多模态的科学问题。

另外,考虑到不同类型的题目所用的评估指标不同,如准确率,相似度,大模型打分等,如何将他们融合成一个综合性分数指标也值得进一步探索。作者期待 SciKnowEval 可以成为评估大模型在科学研究和发现方面的综合标准,从而促进科学大模型的发展。

团队简介

浙江大学杭州国际科创中心生物与分子智造研究院 AI 交叉中心团队致力于大型语言模型和知识图谱等新兴通用人工智能技术在合成生物、分子材料、生命健康等领域的应用研究。近年来与多学科团队合作开展 AI 科学交叉研究,近年来在 Nature Machine Intelligence、Nature Communications,以及 NeurIPS、ICML、ICLR、AAAI、IJCAI 等人工智能顶会发表多篇 AI for Science 领域研究论文。

团队Github地址:https://github.com/hicai-zju

🌟本文内容已获论文原作者独家授权发布,如需转载请联系PaperWeekly工作人员微信:pwbot02,添加时请备注「转载」。

更多阅读

8b1a957e0cd4719d08ecb421fe02210e.png

e1f506d6811ba629fbc93b80c9998ca7.png

79fa2635d1752df893d4a8bdb703d3d8.png

5ae1128f7c00944bcc1528ec30917b4b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

393a7b2dcc3d732be9a28255ac30269a.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

6423f4796f686d5faf6f9c59137db4b3.jpeg

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全评估测试题大模型安全评估测试题关键词库生成内容测试题库应拒答测试题库非拒答测试题大模型安全
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值