MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of LLM

本文是LLM系列文章,针对《MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models》的翻译。

MaterialBENCH:评估大学水平的材料科学大型语言模型的问题解决能力

摘要

构建了材料科学领域大型语言模型 (LLM) 的大学级基准数据集 MaterialBENCH。此数据集由基于大学教科书的问题-答案对组成。有两种类型的问题:一种是自由回答类型,另一种是多选类型。多项选择题的构建方法是将三个错误答案作为选项添加到正确答案中,以便 LLM 可以选择四个答案中的一个作为响应。自由回答答案和多项选择类型的大多数问题都重叠,但答案的格式除外。我们还使用 MaterialBENCH 在 LLM 上进行实验,包括 ChatGPT-3.5、ChatGPT-4、Bard(在实验时)以及带有 OpenAI API 的 GPT-3.5 和 GPT-4。分析和讨论了 MaterialBENCH 测量的 LLM 性能的差异和相似之处。还研究了相同模型中自由回答型和多项选择型的性能差异以及使用系统消息对多项选择题的影响。我们预计 MaterialBENCH 将鼓励 LLM 在推理能力方面的进一步发展,以解决更复杂的问题,并最终为材料研究和发现做出贡献。

1 引言

2 MaterialBench 数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值