LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

本文是LLM系列文章,针对《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的翻译。

LogicBench:大型语言模型逻辑推理能力的系统评价

摘要

最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了实现系统评估,我们引入了LogicBench,这是一个专注于使用单个推理规则的自然语言问答数据集。我们使用思维链提示对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等一系列LLM进行详细分析。实验结果表明,现有的LLM在LogicBench上表现不佳;尤其是,他们难以应对涉及复杂推理和否定的情况。此外,他们有时会忽略推理得出正确结论所需的上下文信息。我们相信,我们的工作和发现有助于未来研究评估和提高LLMs的逻辑推理能力。

1 引言

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值