论文笔记：When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models

UQI-LIUWJ

于 2024-07-27 11:51:45 发布

阅读量147

点赞数 3

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_40206371/article/details/140732931

版权

276 篇文章 69 订阅

订阅专栏

弱智吧benchmark

1 弱智吧问题举例

从弱智吧收集了真实的狡猾问题作为原始数据
- FLUB 共有 8 种细粒度的狡猾问题
- FLUB 中的大多数题型都属于错误推理和文字游戏两类谬论。
- 此外，论文在 FLUB 中为每个问题手动注释了一个正确答案（即问题的解释）和三个令人困惑的错误答案

的大多数数据属于推理错误和文字游戏类型，这是因为这两类问题广泛出现

1. 答案选择（Answer Selection）：要求模型从 FLUB 为每个输入问题提供的四个答案中选择正确的答案；

2. 问题类型分类（Question Type Classification）：给定一个狡猾问题作为输入，希望模型直接识别该问题的谬误类型；

3. 问题解释（Question Explanation）：希望模型看到一个狡猾的问题像人类一样，智能地为这个问题生成正确的解释，而不会落入陷阱。

第一第二个问题自动计算准确率

对于第三个task，论文雇佣了 3 名评估注释员对 LLM 的解释进行评分，得分范围为 {1,2,3,4,5}。为了确保对 LLM 的解释进行公平评估，我们为注释者制定了一套评分指南，包括每个评分的定义和相关示例

对于不同任务的难度，答案选择任务是最简单的
- ——> LLM 在看到正确和错误的答案时应该具有一定的辨别是非的能力。
- 然而，所有模型在问题类型分类任务中的性能都不令人满意，准确率低于 25%。
  - ——>这种不足可能源于模型理解各种问题类别语义的能力有限。
较大尺度的模型能够更好地理解狡猾的问题
答案选择任务中表现出优异性能的模型往往会产生更合理的解释
- ——>答案选择任务和问题解释任务之间有着密切的关系。这两个任务之间的相互作用对于提高 LLM 的谬误理解能力至关重要
Chain of Thought没有给 LLM 的推理能力和谬误理解能力带来质的提高
- 特别是对于答案选择任务，思想链甚至会产生负面影响
- ——>需要研究除思维链之外的新策略来激发 LLM 的推理能力

LLM 在上下文学习中的表现基本上随着举例数量的增加而上升

关注