ChemBench—— 探索大语言模型在化学领域的新基准框架是否胜过化学专家

概述

大规模语言模型是一种机器学习模型,通过学习大量文本来生成文本。这些模型的能力正在迅速提高,现在已经可以通过美国国家医学考试。它们还可以与网络搜索和合成规划器等工具结合使用,自主设计化学反应和进行实验。

一些人认为这些模型是 “人工通用智能(AGI)的标志”,而另一些人则认为它们是 “随机鹦鹉”。换句话说,它们被认为是简单的系统,只是重复它们所学到的东西。然而,大规模语言模型已显示出解决各种未明确学习任务的能力,而且经济利益和投资正在迅速增长:到 2032 年,该领域的市场价值预计将超过 1.3 万亿美元。

化学家和材料科学家对大规模语言模型的兴趣也与日俱增。这是因为大规模语言模型正被用于预测分子和材料的性质、优化反应、生成新材料和提取信息。此外,还开发了根据自然语言指令自主执行物理反应的原型系统。

由于大部分化学信息现在都存储在文本中,大规模语言建模仍有许多潜力尚未开发。例如,许多化学研究见解并非来自数据库,而是来自化学家解读数据的能力。这些见解以文本形式存在于科学论文中,通过处理文本可以获得新的见解。这将为化学家带来一个协同驾驶系统,使他们能够根据人类无法阅读的大量信息回答问题并提出新的实验建议。

然而,机器学习模型在化学领域日益增强的能力引发了人们对该技术双重用途潜力的担忧。例如,设计无毒分子的技术可能反过来用于预测有毒分子。意识到这些风险并制定适当的评估框架非常重要。不过,目前大规模语言模型是通过 BigBench 和 LM Eval Harness 等标准化基准进行评估的,但这些基准很少包括与化学相关的任务。

本文提出了一个新的基准测试框架–ChemBench,并强调了当前最先进模型的局限性。ChemBench由7059个从不同来源收集的问答题对组成,涵盖了美国大部分本科生和研究生化学课程。ChemBench包括从不同来源收集的7059个问答题对,涵盖了大多数本科生和研究生的化学课程。此外,还对 41 位化学专业人士进行了调查,以比较当前模型与人类化学家的表现。

结果表明,虽然目前的模型在某些方面展示了超越人类的能力,但在安全性方面可能会产生很大的误导。精心制定的广泛基准将是这一领域取得进展的重要一步。

方法

数据集中的问题来自现有的考试和练习题,以及程序生成的新问题。问题通过拉取请求添加到 GitHub 存储库中,只有在通过人工审核和自动检查后才会合并到语料库中。

为确保训练数据集中不包含问题,与 BigBench 项目中使用的金丝雀字符串相同。这就要求大型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值