本文是LLM系列文章,针对《MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models》的翻译。
摘要
构建了材料科学领域大型语言模型 (LLM) 的大学级基准数据集 MaterialBENCH。此数据集由基于大学教科书的问题-答案对组成。有两种类型的问题:一种是自由回答类型,另一种是多选类型。多项选择题的构建方法是将三个错误答案作为选项添加到正确答案中,以便 LLM 可以选择四个答案中的一个作为响应。自由回答答案和多项选择类型的大多数问题都重叠,但答案的格式除外。我们还使用 MaterialBENCH 在 LLM 上进行实验,包括 ChatGPT-3.5、ChatGPT-4、Bard(在实验时)以及带有 OpenAI API 的 GPT-3.5 和 GPT-4。分析和讨论了 MaterialBENCH 测量的 LLM 性能的差异和相似之处。还研究了相同模型中自由回答型和多项选择型的性能差异以及使用系统消息对多项选择题的影响。我们预计 MaterialBENCH 将鼓励 LLM 在推理能力方面的进一步发展,以解决更复杂的问题,并最终为材料研究和发现做出贡献。