基于思维链（Chain of Thought，CoT）的合成器：通过答案合成提升大语言模型（LLM）性能

本文链接：https://blog.csdn.net/2401_84208172/article/details/145108859

大语言模型（LLM）在处理复杂推理任务时，往往难以一次性生成准确的答案。虽然如 Self-consistency（自一致性） 和 Best-of-N（N选一） 等在一定程度上提高了模型的推理性能，但它们依赖于候选回答的质量，且在所有候选回答都错误时无法生成正确答案。基于此，本文介绍《CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis》，提出了CoT-based Synthesizer，通过结合Chain-of-Thought（CoT）推理，分析多个候选回答的互补信息，合成更优的答案，即使所有候选回答都存在错误。

问题定义

给定一个用户查询，策略模型会从概率分布中进行次随机采样生成，生成一组候选回答，记为，其中表示第个候选答案。这些候选回答与用户查询一起组成。随后，一个称为 合成器(Synthesizer) 的分析与合成模型会被用来重新生成一个新的答案。这个过程可以形式化为：

其中，表示应用于查询和候选回答集的合成函数，最终生成答案。

❝

策略模型：策略模型是指直接生成用户查询响应的模型。它通过多次随机采样生成多个候选回答。

候选回答集：策略模型生成的多个候选回答，这些回答可能包含正确的、部分正确的或完全错误的答案。

合成器：合成器是一个后处理模型，它的任务是通过分析候选回答集中的信息，生成一个新的、更优的答案。

示例

方法论

CoT-based Synthesizer，通过分析多个候选回答的互补信息，合成更优的答案。为了实现这一目标，设计了一个两阶段的数据生成管道，用于构建高质量的合成训练数据，并基于这些数据训练了一个较小的LLM（Synthesizer-8B），以提升大模型的推理性能。

合成器推理

多样化回答生成

为了生成多样且高质量的候选回答，采用了以下解码策略：

高采样温度：设置较高的采样温度（），以增加生成回答的随机性，促进多样性。
Top-P采样：使用Top-P采样（），仅保留累积概率达到的最可能的token，避免生成语义无关的低概率候选回答，确保生成的回答具有连贯性和相关性。

通过这些策略，生成一组多样且连贯的候选回答。

回答分析与合成

生成候选回答后，合成器会对这些回答进行分析和合成，生成最终的答案。具体步骤如下：

回答分析：合成器首先分析用户查询与每个候选回答之间的关系，考虑回答的频率、相关性和准确性。虽然高频回答可能具有较高的可信度，但合成器并不完全依赖频率作为评估标准，而是优先考虑逻辑一致性和事实准确性，从而识别出部分正确或误导性的回答，并从中提取有价值的信息。
回答合成：如果候选回答中存在正确答案，合成器会进一步从其他候选回答中提取有效的推理步骤，丰富最终答案。如果所有候选回答都存在缺陷，合成器会利用其推理能力，整合多个候选回答中的合理元素，构建一个更连贯和准确的答案。

数据生成管道

为了训练CoT-based Synthesizer，设计了一个两阶段的数据生成管道，确保生成的训练数据具有高质量和多样性。

合成答案生成

对于给定的训练查询，首先使用采样LLM（如Llama3-8B-Instruct）生成候选回答集。然后，将这些候选回答输入到高性能响应LLM（如Llama3.1-70B-Instruct）中，生成合成答案。由于查询的复杂性，响应LLM可能无法在第一次尝试中生成准确的答案。因此，进行了多次采样（如次），显著增加了获得正确答案的可能性。为了确保合成答案的质量，使用黄金答案进行过滤，保留包含CoT分析和合成的正确回答。