小模型也能COT-先天不足后天来补

AI-智能

于 2024-08-06 17:23:08 发布

阅读量417

点赞数 16

文章标签： prompt 人工智能 LLM ai大模型 langchain 大模型 RAG

本文链接：https://blog.csdn.net/2401_82469710/article/details/140961258

版权

这一章更多面向应用，既现实场景中考虑成本和推理延时，大家还是希望能用6B的模型就不用100B的大模型。但是在思维链基础和进阶玩法中反复提到不论是few-shot还是zero-shot的思维链能力似乎都是100B左右的大模型才有的涌现能力，而在小模型上使用COT甚至会带来准确率的下降。

至于为啥小模型无法进行COT，论文[5]通过把小模型回答错误但大模型可以回答正确的问题进行归纳总结，认为小模型的COT能力受到有限的语义理解和数学计算能力的限制。不过我们在实际尝试中发现小模型的few-shot理解能力似乎是更大的短板，表现在小模型无法很好理解抽象few-shot中的推理模板和样本间的共性。

不过以上的观点都是针对模型的先天能力，那我们是否可以把COT推理作为一种生成风格，或者NLP任务类型，通过微调让模型获得COT能力呢ψ(｀∇´)ψ

想要让小模型拥有COT能力，多数方案是通过COT样本微调来实现的，以下Reference[1]-[4]中的4篇论文的核心差异就在COT样本构造和微调方式。以下我们把几篇论文合在一起来说，下图来自[3]

在这里插入图片描述

COT样本

以下Reference中的论文都是使用大模型来生成COT样本不过在数据集，COT样本构建和过滤机制上存在差异。

论文[1]使用了GSM8k的数据集，用Code-Davinci-002随机生成40个的思维链推理，选择答案正确的一条作为训练样本。样本生成这块写的相对比较模糊。

论文[2]优化了COT样本准确率。使用Palm540B和GPT3 175B模型，用8个few-shot样本来引导模型生成COT，这里为了提高大模型COT的准确率，作者修改了指令，在few-shot+question之后会直接给出正确答案作为Hint，来引导模型倒推出正确的COT，同样是只过滤答案正确的样本

论文[3]优化了思维链的多样性。考虑同一个问题其实有很多种解法，以及不同的解法间往往存在逻辑共性，与其让模型拟合单一的推理结果，不如让模型从多个推理路径中去抽象重要信息。因此论文提出了diverse reasoning，每个样本用text-davinci-002生成多个思维链，保留所有答案正确且推理逻辑不同的样本。并且在论文中验证了一个样本生成更多思维链会带来显著的效果提升

论文[4]优化了COT数据集的多样性，整了个COT Collection数据集包含1.88M的COT样本。具体的数据筛选和构建逻辑详见论文。使用了Codex来生成思维链，方案融合了[2]和[3]

在这里插入图片描述

模型训练

不同论文选择了不同的student模型，指令样本构建和指令微调方式，简单对比如下

论文	微调模型	微调样本	微调方式
[1]	FlanT5 250M~11B	Few-shot-COT+Zero-shot-COT+Few-shot-Answer Only	蒸馏：Top5 Token的KL距离
[2]	T5 60M~11B	Zero-shot-COT	指令微调SFT
[3]	GPT-3 0.3B~6.7B	prompt模板Zero-shot-COT	指令微调SFT
[4]	FlanT5 T0	Few-Shot-COT + Zero-shot-COT	两步指令微调

以上不同的指令样本Looklike如下，差异包括是否有few-shot上文，是否有COT推理

在这里插入图片描述

在指令样本构建上多数是直接输入问题，输出COT思维链的，但个人其实更偏好few-shot的COT方案。因为在实际应用中，其实需要分析和推理的很多场景都是非标准化的，远远不是解个数学题或者QA这类标准化问题可以覆盖。这种情况下需要定制场景所需的推理逻辑，这时zero-shot肯定就不行了，需要few-shot来给出不同场景所需的不同推理链路。例如问诊的流程要先问当前症状，病程，病史，用药，再基于用户不同的回答，选择是化验，拍片，还是听诊开药等等。因此大模型和小模型的能力差异除了小模型自身的推理能力有限，还有小模型的In-Context理解能力有限，而few-shot样本微调被证明可以提升模型In-context理解能力。

再说下微调的部分，除了常规的指令微调方案之外，[1]采用了蒸馏方案，不熟悉蒸馏的可以先看下Bert推理太慢？模型蒸馏。简单来说就是让Student模型拟合Teacher模型的分布，分布可以是对齐输出层也可以进一步对齐模型中间层，损失函数一般是两个分布的KL散度或者MSE。这里作者使用的蒸馏方案是对齐输出层分布，考虑OpenAI的接口每次只返回Top5 Token对应的概率，因此只对Student模型每步解码的Top5 Token计算KL散度作为loss。蒸馏过程还有一些例如tokenizer对齐的细节，详见论文

[4]采用了两步微调，第一步在指令微调模型的基础上，使用范围更广的COT Collection样本集对模型进行COT微调，再在该模型的基础上，使用单一领域/任务的COT样本进一步微调，效果会有进一步提升。这一点其实可能说明COT推理本身除了是一种生成风格，也是一种模型能力，所以不同的推理数据集之间存在可迁移性，我们在单任务推理中混入数学COT也发现有效果提升。

Insights

效果其实不用太多说，小模型在经过以上COT训练后，在对应数据集上都有很显著的能力提升。考虑不同论文使用的模型checkpoint不同，Benchmark数据集的划分也不同所以可比性不高，以及现在的很多random split的方案真的说不清楚是否有信息泄露问题。建议大家在自己的业务使用中去寻找更合适的方案。这里想更多说下论文中提到的一些insight

COT能力提升以其他任务能力下降为代价

论文[1]发现在数学COT能力提升的同时，模型在BigBench(BBH)上的打分会出现显著的下降，并且这个过程是随微调逐渐发生的。论文指出的可能原因是小模型能承载的能力有限，因此不像大模型可以许广泛任务上有很好的表现，小模型单一能力的提升，可能会以通用能力损失为代价。虽然这里我有些存疑，感觉BBH的效果下降也可能是因为COT的生成风格和很多通用任务的生成风格存在差异，如果在COT微调时在中加入额外的指令，把直接生成推理转化成基于指令推理的条件生成任务，可能会降低对其他任务的影响。

在这里插入图片描述

小模型COT也存在规模效应

论文几乎都提到了这一点，简单说就是越大的模型越好，所以在ROI允许的范围内选择最大的小模型哈哈~

使用Few-shot-COT微调，会同时提升zero-shot和few-shot能力，反之不成立

如何系统的去学习AI大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的所有 ⚡️ 大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

全套《LLM大模型入门+进阶学习资源包》↓↓↓ 获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

AI-智能

关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
小模型也能COT-先天不足后天来补

这一章更多面向应用，既现实场景中考虑成本和推理延时，大家还是希望能用6B的模型就不用100B的大模型。但是在思维链基础和进阶玩法中反复提到不论是few-shot还是zero-shot的思维链能力似乎都是100B左右的大模型才有的涌现能力，而在小模型上使用COT甚至会带来准确率的下降。
复制链接

扫一扫