性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理

ab1ca58e527b057b7db021c0fdcccb2f.gif

©PaperWeekly 原创 · 作者 | 邹安妮

单位 | 上海交通大学

研究方向 |NLP,大模型推理

大语言模型(LLMs)通过思维链(CoT)提示技术,生成中间推理链作为得出答案的依据。然而,当前的 CoT 方法要么采用简单的通用提示(例如“让我们一步一步思考”),要么依赖人工制定且任务特定的样本示例来获得更好的性能,从而在性能通用性之间产生了巨大的鸿沟。为了弥补这一鸿沟,本文提出了 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。

aad1fbe06e7fd15eaf58b569c2a7e5d4.png

论文标题:

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

论文链接:

https://arxiv.org/pdf/2310.06692.pdf

代码链接:

https://github.com/Anni-Zou/Meta-CoT

4fc37540cdcce0d3d048881dfc1ef141.png


引言

大语言模型(LLMs)凭借思维链(CoT)提示在复杂推理方面表现出了优越的能力。CoT 提示需要生成中间推理链,作为得出答案之前的基本依据。目前的 CoT 提示方法主要分为两类,我们分别称为 General Zero-Shot-CoTSpecific Few-Shot-CoT。前者利用“让我们一步一步思考”等一般性提示,将其直接附加到输入问题中,旨在唤醒 LLMs 的逐步推理潜力;后者提供特定于任务的输入输出对作为样本示例,并将它们放在输入问题之前,目的是引导 LLMs 通过模仿学习样本示例来进行多步推理。

baeb73f96a9b205fc2a8d3728f6bb27f.png

然而,当前研究主要存在两个局限性:1)General Zero-Shot-CoT 由于不需要任何与任务相关的样本而具有良好的泛化能力,但与 few-shot 模式相比,它在性能方面往往相形见绌;2)Specific Few-Shot-CoT 严重依赖于任务特定的样本示例来获得优越性能,但无法提供良好的泛化能力。

在实际应用中,LLMs 通常不知道用户会输入什么样的问题(区别于现有的针对每个特定任务的测试集进行测试的情况),因而难以为每种类型的问题预先准备上下文提示。因此,研究自动适用于各种类型问题的提示技术具有重要意义。

为了弥合性能通用性之间的差距并提高 CoT 提示技术在实际场景中的应用价值,本文提出 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。Meta-CoT 不仅在 10 项推理任务上取得出色的性能,而且具有卓越的泛化能力。其在 SVAMP(93.7%)上取得了最先进的结果,而无需任何额外的程序辅助方法。

6a08c4a56f562f3b38310522c728fa69.png


方法

Meta-CoT 由三个阶段组成:

1. 场景识别(Scenario Identification):利用现成公开的推理数据集,根据<类别,形式>的划分策略获得含多个数据组的混合问题池,随后从每个数据组中随机采样一个问题,组合之后将其作为上下文样本示例,用以辅助 LLMs 对输入问题进行自动场景分类;

2. 样例选择(Demonstration Selection):根据阶段(1)得到的场景,通过对问题进行编码和聚类的方法,从相应的场景数据池中获得最具代表性的问题,从而构建多样化样例;

3. 答案推导(Answer Derivation):使用阶段(2)获取的多样化样例对输入问题执行最终答案推导。

30e9cb5e3a772556da388d546d37f8f8.png

a0265da3e0d0f6f7881a2e76bedf5188.png


实验结果

我们对 10 个分布内推理任务进行了实验,涵盖算术推理、常识推理和符号推理。此外,我们还在 5 个分布外数据集上验证了 Meta-CoT 的稳定性和泛化性:

1. Meta-CoT 在 SVAMP 上实现了无需任何额外的程序辅助方法的最优结果 (93.7%)。 此外,即使缺乏来自 GSM8K 数据集的上下文示例,Meta-CoT 在 GSM8K 上也能达到优越的性能 (93.6%)。

ddde05e7bac909b0cb31618d21708899.png

2. Meta-CoT 在保持良好稳定性的同时,还能实现不错的性能。这些结果证明,Meta-CoT 适用于输入数据没有特定类型定义的实际情况,具备良好的实际应用价值。 

0d2ea8ec81ae8be56bd53480f0f7d74c.png

3. 为了进一步探讨在实现通用性中起着关键作用的场景识别(scenario identification)阶段的效果,我们去除了这个阶段,并采用一种理想化的策略:即假设模型被赋予了正确场景。结果表明,即使给出正确的场景,也只能实现细微的改进 (70.2% → 70.6%)。这表明 Meta-CoT 潜在激发了 LLMs 在无需人工干预下的自我决策能力。

f391e18fdcd4ba662dadfefcc1cb4cfc.png

1511d9ae69cf4f3fdfc9bdc0e9e8c89e.png


本文总结

在这项工作中,我们首先提出了一个具有重要应用价值的新场景,即输入问题类型未知的混合任务场景。在这一具有挑战性的场景下,我们提出了可通用的思维链提示方法:Meta-CoT。在 15 个分布内和分布外推理数据集上的结果表明,Meta-CoT 在达到优越性能的同时还享有良好的泛化能力。

更多阅读

6203f2666492b669661e620e53379180.png

9518f69ad55ee7a2a34b90a5df6183c6.png

23a923bd655bbbe67ce53de28c87b546.png

28f0fd72ea94c49fc3b2223a7c881b54.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9fede8818bad4fae06106d67c1a254be.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

d78c60a26ad986b9b5cfef66d7225c20.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值