推理?大语言模型能力测评

大语言模型能做什么?能做多好?如何验证?

9a3411085a48d7a5142dceb86085a64d.jpeg

接上一篇测评大语言模型的自然语言理解能力,这回把关注点放在大语言模型推理能力的测评上。看看大语言模型推理水平有多高,如何测试证实。

本文同样基于十几位中美学者在7月6日发布的《大语言模型测评调查》研究报告(https://arxiv.org/pdf/2307.03109.pdf )展开。

推理以及推论 Reasoning vs Inference

6767e41184938569ddd2cac26919165e.png

图:大语言模型通过推理过程获得结果推论

"Reasoning"(推理)和 "Inference"(推论)是两个紧密相关又有些许不同的概念。在研究大模型的自然语言理解的工作中,重点往往在自然语言的推论,即推理的结论,所以一般会讲Inference;而在研究大模型的推理能力的工作中,侧重点更多地放在了逻辑和思维的过程。会讲Reasoning多一些。即,通过推理(Reasoning)过程产生推论(Inference)的结果。

举个例子来说明:假设"所有人都需要喝水"(这是一个前提条件),然后得出"约翰需要喝水"这个结论。在这个例子中,推理(Reasoning)是整个过程,包括考虑到前提条件并应用逻辑规则来得出结论。而推论(Inference)是最终的结论,即"约翰需要喝水"。

分析结论对错不能不联系得到结论的方法,而评判方法的有效性根本上也是依赖于结果的好坏。因此,就测评而言,难以非常清晰地划分推理能力的测评与自然语言推论(NLI)能力。前文从自然语言理解的角度出发,分析大语言模型自然语言推论的性能,本文也不纠结于细节的区分和概念的重叠,从推理的角度,梳理一下大语言模型的能力。

大语言模型的推理能力

算术推理(Arithmetic Reasoning)

dafffef85cf383916044ca58afe70eb0.jpeg

【能力描述】

多步骤推理的基本数学问题进行问答

【测试数据集举例】

MultiArith:600道算术应用题。

GSM8K:8.5K 个高质量小学数学应用题的数据集。。

AQuA: 包含问题、答案和基本原理的 100,000 个样本的代数问答数据集。

AddSub, SingleEq和SVAMP等数据集

【测试实例】

Q: George had 28 socks. If he threw away 4 old ones that didn’t fit and bought 36 new ones, how many socks would he have? 

A: The answer (arabic numerals) is 60. George would have 60 socks. (28 + 36 = 60)

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now? 

A: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.

【相关模型】

ChatGPT

【评估结果】

aa43c2e172a00812edbdafcf357e323f.png

论文截图:在7个加减乘除运算应用题数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值