论文笔记:When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models

弱智吧benchmark

  • ——>测评 LLM 是否能够理解可能包含误导性、错误前提、故意歧义等的狡猾问题(Cunning Questions)

1 弱智吧问题举例

2  FLUB数据集

  • 从弱智吧收集了真实的狡猾问题作为原始数据
    • FLUB 共有 8 种细粒度的狡猾问题
    • FLUB 中的大多数题型都属于错误推理和文字游戏两类谬论。
    • 此外,论文在 FLUB 中为每个问题手动注释了一个正确答案(即问题的解释)和三个令人困惑的错误答案

2.1谬误类别

的大多数数据属于推理错误和文字游戏类型,这是因为这两类问题广泛出现

2.2 三种任务

1. 答案选择(Answer Selection):要求模型从 FLUB 为每个输入问题提供的四个答案中选择正确的答案;

2. 问题类型分类(Question Type Classification):给定一个狡猾问题作为输入,希望模型直接识别该问题的谬误类型;

3. 问题解释(Question Explanation):希望模型看到一个狡猾的问题像人类一样,智能地为这个问题生成正确的解释,而不会落入陷阱。

第一第二个问题自动计算准确率       

对于第三个task,论文雇佣了 3 名评估注释员对 LLM 的解释进行评分,得分范围为 {1,2,3,4,5}。为了确保对 LLM 的解释进行公平评估,我们为注释者制定了一套评分指南,包括每个评分的定义和相关示例

3 结果

  • 对于不同任务的难度,答案选择任务是最简单的
    • ——> LLM 在看到正确和错误的答案时应该具有一定的辨别是非的能力。
    • 然而,所有模型在问题类型分类任务中的性能都不令人满意,准确率低于 25%。
      • ——>这种不足可能源于模型理解各种问题类别语义的能力有限
  • 较大尺度的模型能够更好地理解狡猾的问题
  • 答案选择任务中表现出优异性能的模型往往会产生更合理的解释
    • ——>答案选择任务和问题解释任务之间有着密切的关系。这两个任务之间的相互作用对于提高 LLM 的谬误理解能力至关重要
  • Chain of Thought没有给 LLM 的推理能力和谬误理解能力带来质的提高
    • 特别是对于答案选择任务,思想链甚至会产生负面影响
    • ——>需要研究除思维链之外的新策略来激发 LLM 的推理能力

LLM 在上下文学习中的表现基本上随着举例数量的增加而上升

3.2 case study

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值