LLM+推理决策|ACL-24,哈工大思维链推理技术综述,干货满满

一、背景知识

随着预训练数据量以及模型规模的逐步扩大,大语言模型出现了上下文学习(in-context learning,简称ICL)、思维链推理等新能力。伴随着这个趋势,[通用预训练+prompting]技术路线逐步取代了[通用预训练+下游任务微调finetuning]。此外,为了提升大模型解决复杂任务的能力,prompting技术也在逐步发展:

  • 对于普通的任务,通常只需要zero shot prompt(普通的指令+具体的问题),具体例子 => {你是一位数学专家,请帮我求解以下小学数学题。具体的问题};
  • 而对于稍微复杂的问题,则需要构建few shot prompt(普通的指令+示例+具体的问题),具体例子 => {你是一位数学专家,请帮我求解以下初中数学题。示例问题1,示例答案1。示例问题2,示例答案2。具体的问题};
  • 对于涉及多步推理的复杂问题,则最好在few shot prompt基础上引入思维链(普通的指令+带有思维链的示例+具体的问题),具体例子 => {你是一位数学专家,请帮我求解以下大学数学题。示例问题1,思维链1,示例答案1。示例问题2,思维链2,示例答案2。具体的问题};

总的来说,引入思维链主要有3个优点:增强模型的推理能力、提升推理结果的可解释性、提升agent之间以及agent与用户的交互协同(例如之前分享过的Chain-of-Expert方案中,不同agent就是基于已有的推理轨迹进行交互)。

二、现有方案

2.1 思维链构建策略

按照人工参与程度,可将思维链的构建策略分为3类:

  • 全人工构建(Manual XoT): Cot经典之作首次基于人工标注的带有思维链的示例构建few shot prompt,并以此指导模型逐步推理中间步骤。紧接着,有研究人员尝试将比较复杂的思维链放到prompt中&进一步提升了模型的推理能力。考虑到文本形式的思维链存在不一致推理的问题,后续有研究人员尝试使用编程语言的形式构建思维链,即将推理问题的求解转化成代码生成问题(ps: 执行代码后产出的结果会相对稳定)。

  • 全自动构建(Automatic XoT): 主要有2类方案,Instruction-based zero-shot推理以及Automatically generated rationales。前者的核心思路是设计特定的指令来模拟zero-shot模式下的思维链推理,其中最经典的工作是Zero-Shot Reasoners[4] => 在prompt末尾增加一句Let’s think step by step后,直接把InstructGPT(text-davinci-002)在GSM8K上的指标从10.4%提升到了40.7%。除此之外,还有部分工作通过在指令中增加写代码、提前规划、角色说明等内容来增强推理能力。然而,由于缺乏显式的示例,Instruction-based方案的求解效果其实不太稳定。对于Automatically generated rationales方案,其重点是根据已有的内容自动构建或者挑选合适的示例。对于自动构建子方向,部分工作通过模版构建示例或者使用大模型构建思维链供小模型学习。对于示例挑选子方向,有研究人员使用聚类算法获得多样性较强的示例、以及借助answer entropy / Gibbs sampling挑选合适的示例。

  • 半自动构建(Semi-automatic XoT): 这类方案综合了人工以及自动化构建手段,即先通过人工构建少量高质量思维链,然后通过自动化方案扩展。这些方法侧重于通过bootstrapping的方式获取高质量的推理链,并选择适当的示例来促进推理。其中比较经典的工作是Synthetic Prompting[5],其核心思路是通过交替进行forward以及backward的合成过程生成高质量的推理链。

2.2 思维链拓扑形态

按照拓扑形态,可将现有的推理分为以下6类:

  • 输入-输出: 最简单的形式,模型直接产出最终的答案,不涉及中间的推理;
  • 并行多路解码: Skeleton-of-Thought,先构建回答要点,然后将多路推理的结果整合成完整的答案;
  • 链式推理: 带有思维链的链式推理,按照推理链的描述形式分为Cot(自然文本)、PoT(代码)、Cos(符号序列);
  • 自集成: 带有思维链的多路链式推理,通过多数投票等策略选出最终答案;
  • 树式推理: 带有思维链的多路树式推理,在每个节点可产出不同的推理路径 & 带有backtrack(回溯)机制;
  • 图式推理: 带有思维链的多路图式推理,在树式推理的基础上引入了refine、aggregate机制;

2.1.3 思维链增强技术

介绍了5种增强思维链效果的技术方案:

  • 验证及优化: 为了缓解幻觉问题,在推理过程引入校验&优化模块。校验模块(Critic Model)会判断当前推理步骤的正确性 & 将相关结果反馈给大语言模型LLM。收到反馈后,LLM会对之前的推理进行调整;
  • 问题分解: 先基于LLM将问题分解成多个小问题,然后根据子问题的依赖程度进行串行或者并行的求解;
  • 知识增强: 基于prompt产出LLM的内化知识或者从外部知识库获取新知识,知识的引入会减缓幻觉问题;
  • 自集成: 带有思维链的多路链式推理,通过多数投票等策略选出最终答案;
  • 高效推理: 侧重于提升推理效率,相关的方案有 [先分解-子问题并行求解]、[speculative decoding](配合小模型加速推理)、[动态调整采样频率]等;

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

如有侵权,请联系删除。

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值