弱智吧benchmark
- ——>测评 LLM 是否能够理解可能包含误导性、错误前提、故意歧义等的狡猾问题(Cunning Questions)
1 弱智吧问题举例
2 FLUB数据集
- 从弱智吧收集了真实的狡猾问题作为原始数据
- FLUB 共有 8 种细粒度的狡猾问题
- FLUB 中的大多数题型都属于错误推理和文字游戏两类谬论。
- 此外,论文在 FLUB 中为每个问题手动注释了一个正确答案(即问题的解释)和三个令人困惑的错误答案
2.1谬误类别
的大多数数据属于推理错误和文字游戏类型,这是因为这两类问题广泛出现
2.2 三种任务
1. 答案选择(Answer Selection):要求模型从 FLUB 为每个输入问题提供的四个答案中选择正确的答案;
2. 问题类型分类(Question Type Classification):给定一个狡猾问题作为输入,希望模型直接识别该问题的谬误类型;
3. 问题解释(Question Explanation):希望模型看到一个狡猾的问题像人类一样,智能地为这个问题生成正确的解释,而不会落入陷阱。
第一第二个问题自动计算准确率
对于第三个task,论文雇佣了 3 名评估注释员对 LLM 的解释进行评分,得分范围为 {1,2,3,4,5}。为了确保对 LLM 的解释进行公平评估,我们为注释者制定了一套评分指南,包括每个评分的定义和相关示例
3 结果
- 对于不同任务的难度,答案选择任务是最简单的
- ——> LLM 在看到正确和错误的答案时应该具有一定的辨别是非的能力。
- 然而,所有模型在问题类型分类任务中的性能都不令人满意,准确率低于 25%。
- ——>这种不足可能源于模型理解各种问题类别语义的能力有限。
- 较大尺度的模型能够更好地理解狡猾的问题
- 答案选择任务中表现出优异性能的模型往往会产生更合理的解释
- ——>答案选择任务和问题解释任务之间有着密切的关系。这两个任务之间的相互作用对于提高 LLM 的谬误理解能力至关重要
- Chain of Thought没有给 LLM 的推理能力和谬误理解能力带来质的提高
- 特别是对于答案选择任务,思想链甚至会产生负面影响
- ——>需要研究除思维链之外的新策略来激发 LLM 的推理能力
LLM 在上下文学习中的表现基本上随着举例数量的增加而上升