论文浅尝 | 从最少到最多的提示可在大型语言模型中实现复杂的推理

3c67bb606b9fd5d114c8a6b091391f46.png

笔记整理:王泽元,浙江大学博士

链接:https://openreview.net/forum?id=WZH7099tgfM

1. 动机

尽管深度学习已经取得了巨大的成功,但它与人类智慧仍然存在一些明显差距。这些差距包括以下几个方面:1)学习新任务:人类可以通过很少的示例快速学会新任务,而机器学习通常需要大量已标记的数据来完成相同的任务。2)逻辑解释:人类能够清晰地解释他们的思维过程,但机器学习似乎像一个黑盒,我们难以理解其中的工作原理。3)处理复杂问题:人类能够解决比以前遇到的更具挑战性的问题,而机器学习在训练和测试上遇到的难度大致相等。为了克服这些问题,研究人员提出了一种称为“从最少到最多提示”的方法。这个方法包括两个关键步骤:1)将复杂任务分解成一系列更简单的子任务,然后2)按照顺序逐一解决这些子任务。这有助于模型逐渐理解和解决整个复杂任务。在这两个阶段中,使用了很少的提示来指导模型,而不需要对模型进行大规模的微调。

2. 贡献

提出了基于学习简单任务来解决复杂任务的提示学习方法。该方法在如符号操纵、成分概括、数学推理上证明了其解决复杂问题的能力。

1fac50a3b2efd4f7a4600746ef0e04a1.png

3. 方法

它包含了两个阶段:

(1)分解:这个阶段的提示是固定的,描述了如何将一个具体的任务分解

(2)子任务解决:这个阶段的提示包含了三个部分:固定的例子说明如何解决子问题;一个可能为空的列表包含了先前回答的子问题和生成的解决方案;下一个要被回答的问题

4. 结果

符号操纵:最后字母拼接任务(输入一系列单词,输出是每个单词最后一个字母的拼接)

90e3fb6c0aaa6bf72a059de8858583fa.png

4332c43285f5368282f7b23096276c38.png

实验结果显示普通的提示在所有的测试中都失败了,思维连提示显著的提升了效果但仍与从最少到最多提示方法有差距。特别的,当序列长度增加时,思维链提示效果快速下降。

成分概括:将自然语言命令转换为行动序列

3c801c8a6ddbed17146fba4bd67cee17.png

b7909c2cf6c44357b889c93a96edefb6.png

成分概括数据以行动序列长度划分,从最少到最多提示达到了99.7%的准确率,一个有趣的发现是code-davinci-002优于text-davinci-002不论是使用哪种提示方法。在失败的例子中,有6个是因为没有正确理解“around”后面的“twice”和“thrice”,7个是因为错误地将“after”解释为“and”。

数学推理:作者用解决数学问题需要的步骤数量作为评价数学问题的难度

3f4383fd65ddba49a24485789bfd3470.png

3f5d3a2454f13e92f0fe1ea64e052d0c.png

b68d391e6c1af594afd22fbb6bccd3f4.png

从实验结果中可以看出,与思维链相比,当推理步骤数目大于5时,从最少到最多提示方法显著地提升了模型回答数学问题的准确性。作者发现在GSM8K中失败的问题,可以通过人为手工分割任务,让模型回答正确。这表明解决问题中最关键的一步是分解问题。

5. 总结

作者引入了从最少到最多的提示,使语言模型能够解决比提示中的问题更难的问题。这种方法需要两个过程:自上而下的问题分解和自下而上的解决方案生成。作者的实证研究结果包括符号操纵、构图概括和数学推理,表明从最不重要到最重要的提示明显优于标准提示和思维链提示。一般来说,提示可能不是教授大型语言模型推理技能的最佳方法。提示可以被视为一种单向交流形式,在这种形式中,我们指导语言模型而不考虑其反馈。一个自然的进展是将提示发展为完全双向的对话,从而能够立即反馈到语言模型,从而促进更高效和有效的学习。从最少到最多的提示技术代表了通过这种双向交互指导语言模型的一大进步。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

a3a7b4b55deda24cb7837c11c3505fdb.png

点击阅读原文,进入 OpenKG 网站。

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值