Prompt工程还是SFT微调？剖析企业应用中优化大语言模型输出的两种方案-CSDN博客

本文链接：https://blog.csdn.net/datian1234/article/details/141960148

前言

我们在使用大语言模型（LLM）的过程中应该都遇到过这样的困惑：模型很多时候并不总能输出你期望的结果。这里面有的是大模型的“知识盲区”导致的“幻觉”问题，有的是大模型不能很好的遵循你的“指令”。这些问题在企业应用中会尤其突出，这源自于企业应用对输出确定性的要求以及应用环境的复杂性。特别是在构建类似AI Agent（自主AI智能体）应用时，作为智能体“大脑”的LLM，很多时候我们需要更准确与稳定的输出，以降低智能体的出错概率。

那么如何提高大语言模型针对特定行业与场景输出的适应性、准确性及时效性呢？常见的解决方案是提示工程(Prompt Engineering)与微调(SFT)。本文将一起来了解这两种方案及选择策略，我们不会专注某些技术或算法细节，仅希望在产品与架构层面形成一定的指导与建议。

我们首先用一个简单的比喻来形成一个初步印象：

如果LLM比作一个学习了很多知识的小孩，正在参考一个考试，那么

* Prompt工程：在考试时向他提供足够的背景/相关信息，并要求他用自己的语言和推理，结合提供的信息，来得出答案。

* SFT微调：在考试前一天对他进行了辅导，使他成为了某个领域的专家，然后来回答问题，但是付出的代价可能是降低他在其他方面的技能。

提示工程Prompt Engineering

【Prompt是什么】 不要把Prompt简单与我们使用chatGPT的一个提问对等。Prompt可以简单的理解成是给大模型（不仅是语言模型）的指令。它可以是一个问题、一段文字描述，可以携带参数，未来甚至可能含有多模态内容。大模型会基于 prompt 的信息输出响应内容。一个好的Prompt通常由指令、上下文、输入数据、输出格式等部分组成，越明确越好。

【Prompt工程】 不要简单地认为让AI模仿李白和你对话就是Prompt工程。**Prompt工程是针对于Prompt进行结构、内容等维度进行优化的AI技术，进而更好地引导与控制模型的输出。**通过提供清晰和具体的指令，引导模型输出生成高相关、高准确且高质量的响应内容。这是大模型应用领域的一个重要技术工程。

【为什么重要】 一些套壳的个人AI助手上很多类似的“角色模拟”，“专家扮演”等功能，其实就是简单的预设提示词工程。但是在企业应用场景中，很多时候需要精确控制大模型的输出时，提示工程会比我们想象的要复杂。一些常见的高阶Prompt提示技巧包括：

少样本提示
思维链提示
自一致性提示
头脑风暴提示
知识增强提示
知识反刍提示

我们介绍在企业应用或AI Agent中常见的两种Prompt工程模式。

01 思维链提示（Chain Of Thought）

简单的说，思维链提示就是给 LLM 提供一些思考的中间过程，让大模型来学会思考并解决问题的步骤。思维链又可以分为零样本思维链与少样本思维链，区别仅在于是否提供一些参考的“样例”。思维链的核心是为了提高模型解决复杂推理问题的能力，包括但不限于符号推理，数学问题，决策规划等等。COT让模型在得到结果前，模拟人类思考推理的过程生成中间的推理步骤。

思维链提示在一些AI智能体构建中的具体落地模式常见的有两个，一种叫ReAct（推理与行动），一种叫Self Ask（自我提问）。

【ReAct提示框架】 这个提示框架要求LLM以一种固定的模式来“思考”后输出结果，配合相应的工具（Tool）使用后，可以实现自动完成的输入任务，比如实现一个AI销售助理，甚至在线订购一个披萨。

一个典型的ReAct提示模板如下：



【.........前置提示，扮演角色/可用工具/输出格式要求等........】

  

`请遵循以下的格式进行一步一步的推理并回答问题：   ===========   ``Question: 我需要回答的问题   Thought: 回答该问题我是否需要使用工具   Action: 【可用的一个工具名字】   Action Input: 【该工具的输入内容】   Observation: 【该工具上次的调用结果】   ...（以上的思考/行动/输入/观察可以重复迭代N次）   Final Answer: 最终输出答案`

`============`

`开始吧！   `

`输入问题：{question}`

【Self-Ask提示框架】 另外一种提示框架叫Self- Ask，Self Ask提出了一种把问题拆解成子问题的Prompt范式，简单的说，就是提示AI在每一步通过自我提问生成子问题，并进行回答或者使用工具获得结果，然后根据这一步的结果进一步自我提问，直到获得答案。比如问题：**美国公开赛卫冕男子冠军的家乡是哪里？**LLM的推理过程可能是这样的（中途需要调用搜索工具并获得反馈）

一个典型的Self-Ask提示模板如下：



【.........前置提示，扮演角色/可用工具/输出格式要求等........】

请参考如下的推理格式并回答问题：

\==============  

问题: Who lived longer, Muhammad Ali or Alan Turing?  

是否需要提出子问题: Yes.

子问题: How old was Muhammad Ali when he died?

子问题答案:Muhammad Ali was 74 years old when he died.【此处调用工具获得答案】

下一个子问题:How old was Alan Turing when he died?

子问题答案: Alan Turing was 41 years old when he died.

得出最终答案: Muhammad Ali

\==========

输入问题: {input}

02 知识增强（检索）提示

增强检索提示就是在提示的时候带入更多的知识信息，从而更好的引导大模型给出答案（帮助大模型补充或者回忆）。

我们听的比较多的私有知识库+LLM的方案，本质上就是这种知识增强提示的一种。 即利用私有知识库来提高prompt的信息量，这里的私有知识库需要embedding模型进行向量化存储与检索，用来降低输入的知识块大小。具体的方案我们在之前的文章做过介绍，此处不过多展开。

另外还有一种提示方式，就是在构建Prompt的时候，让LLM先自行产生一些相关的知识和事实，再把这些知识和原生问题一起输入给大模型。形象的说，就是“帮助大模型先回忆出一些相关的知识“，毕竟大模型有时候会由于掌握了太多知识容易“健忘“。

以上就是我们对在企业应用/AI Agent中常用的提示工程模式及其实现的介绍。了解他们背后的思想，有助于我们优化LLM的输出。

对于高阶提示工程的研究，除了阅读相关的论文外（文末列表），也可以阅读知名LLM开发框架LangChain的部分源代码，可以更好的理解其应用。其中包含了众多实现了各种提示工程的组件，如Zero-shot Agent，ReAct Agent，Sef-ask-chain等。

微调（Supervised Finetuning）

【微调（Fine Tuning）基础】 下图是OpenAI公司在Microsoft Build大会上介绍GPT架构的大语言模型的训练路线图，我们可以通过这张图了解到一个发布使用的大语言模型的训练通常会有几个阶段：

**预训练阶段：**整个过程中最复杂的阶段，像chatGPT这样的模型在预训练阶段通常需要数千个GPU，在海量的无标记的数据上训练数月来完成，这一阶段其实占用了全部阶段的99%的时间成本。预训练输出的模型一般叫基座模型，基座模型有的会发布（比如开源的LLaMa），有的不会发布（比如GPT-4）。

基座模型本身也是可以直接使用的，但基座模型通常不是一个“回答问题”的模型，而是一个“补全文档”的模型。如果你想让基座模型来回答问题，你必须假装在输出一个文档，然后让他来“补全”。比如你必须提示“下面是一首赞美祖国的诗歌：”，然后让模型来补全；而不能直接要求“写一首赞美祖国的诗歌”。那么如何让基座模型变成一个交互式的AI助手呢？那就需要进入后面的阶段：微调。

微调&RLHF： 宏观上可以把后面的阶段都归到微调的范畴，即包括受监督微调、奖励模型+RLHF人类反馈强化学习的阶段。简单的说，这阶段就是对基座模型在少量（相对预训练的数据量来说）的、已标注的数据上进行再次训练与强化学习，以使得模型更好的适应特定的场景与下游任务。比如：

**强化某个方面的应用能力（比如利用大语言模型进行情感检测）
**
适应特定的使用场景（比如针对人类对话，输出无害安全的内容）
适应特定的知识领域（比医疗或法律行业，特定术语/语义）
针对某些可标注数据相对稀缺的任务进行适应
适应特定的语言输出要求（比如适应某个场景的语言风格）

相对于预训练阶段，微调对算力的要求与成本都大大降低，这也使得微调对于大部分企业在成本与技术上是可行的。

**微调的类型与工具：**大模型微调是一个十分专业的技术课题，涉及到较多底层的深度学习架构、参数以及算法知识，本文无意对此展开。我们只需要知道目前大模型的微调的主要类型有全量微调、Prompt Tuning，Prefix Tuning，P-tuning V2，Lora等不同的方法，不同的方法对资源与成本、指令数据等有不同的要求，当然达到的效果也不一样。另外，也有一系列实现了这些微调算法的工具与框架可以使用：

OpenAI针对chatGPT提供的在线微调API
重量级的大模型并行训练框架Deepspeed、colossal AI
百度的文心千帆云大模型训练平台
阿里的魔搭平台的SFT工具
FireFly开源微调项目等。

**【微调的挑战】在实际应用中我们发现，相对算力与算法有成熟的平台与工具，而最无可替代的任务反而是一定规模的高质量数据集的生成与标注，特别是垂直行业。**这通常由大量的指令/输出的样本来组成，即Prompt+Response，通过这样类似QA问答的数据让大语言模型来学习其中的模式与知识，从而胜任特定领域的任务。

对于一些行业特征特别突出的垂直领域，数据集的准备是最大的挑战。这些挑战主要来自于：

数据从哪里采集，又如何确保专业性与有效性
多形态的数据如何清洗与归一
数据的提示、输入、输出等怎么标注
数据过期处理，即变化后又如何反馈到大模型

这里面一部分需要使用大规模人工，一部分也建议借助技术手段：

使用已有的AI大模型帮助进行数据清洗
利用Self-Instruct帮助生成微调指令集

用微调替代或增强提示工程

大模型微调（SFT）的一个事实是：你在Pormpt Engineering做的很多工作是可以通过微调给大模型注入知识以增强其响应能力来实现的。毕竟大模型本身就是在大量的Prompt与响应基础上训练与学习而来，你的Prompt工程的指令数据完全可以拿过来进行SFT训练。

比如你在提示中给予大模型的样本，可以作为大模型SFT的输入一部分。

图片来自OpenAI公司Microsoft Build大会演讲

我们对上面的几种提示工程做简单分析，看看微调在哪些方面对提示工程具有替代性或者进行辅助增强：

【知识增强提示】很显然，你完全可以对这些本地增强的知识做数据清洗与标注，然后通过SFT微调来让大模型学习，提高其对您私域知识的指令泛化能力，一劳永逸的达到目的。

【思维链模式提示】 思维链模式的提示工程更多体现在AI Agent运行过程中的任务规划与自我执行。其中很重要的一个能力是对工具Tool调用的输出，也就是要让LLM来根据自然语言来决策何时调用工具、调用哪个工具、以及这个工具的输入信息。在实际使用中测试，我们会发现，通过提示工程（ReAct或者Self Ask）的实现，存在以下局限：