[蒙特卡洛搜索树]CPO: 通过偏好链优化改进大型语言模型中的思维链推理

本文链接：https://blog.csdn.net/m0_59235945/article/details/144788871

思维链（CoT） 解码的近期发展使得大型语言模型（LLMs）能够为解决复杂问题生成明确的逻辑推理路径。但这些路径并非总是经过深思熟虑且最优的。思维树（ToT） 方法利用树搜索来广泛探索推理空间，并找到思维链解码可能忽略的更好的推理路径。但这种深思熟虑是以大幅增加推理复杂性为代价的。

基于上述内容的考量，《Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs》利用思维树构建的搜索树对大型语言模型进行微调，能够让思维链实现相近或更优的性能，从而避免了沉重的推理负担。

链式思维提示（Chain-of-Thought Prompting）

链式思维（CoT） 是一种提示LLM在给出最终答案之前生成一系列推理步骤的方法。它引入了一系列中间思维，记为，这些思维将输入与输出连接起来，其中是推理步骤的总数。例如，如果是演示示例和输入问题的组合，是最终答案，则每个中间思维形成一个连贯的语言序列，表示通向最终答案的总体推理路径的一部分。演示示例由一组CoT演示组成，这些演示在提示过程中作为范例。中间推理思维依次从分布中采样，输出则从中导出。

树式思维提示（Tree-of-Thought Prompting）

树式思维（ToT） 使LLM在回答给定问题之前探索多条推理路径。该方法将LLM推理任务建模为对树的搜索，其中每个节点表示推理路径中的一个思维步骤。ToT由两个主要组件组成，这两个组件都通过提示LLM来实现：1）思维生成器；2）状态评估器。思维生成器根据当前状态为下一步构建多个新思维。随后，状态评估器为每个新思维生成分数，并选择n个最佳思维以进行进一步搜索。最终结果由搜索算法（例如BFS或DFS）应用于所选思维，直到推理过程得出结论。

直接偏好优化（Direct Preference Optimization）

直接偏好优化（DPO） 是一种直接优化LLM以与偏好数据（例如人类反馈）对齐的方法。强化学习从人类反馈（RLHF）传统上将人类反馈的应用框架化为一个RL问题。然而，DPO将RLHF中的奖励建模和RL微调阶段重新表述为一个单一的优化问题。DPO的目标函数旨在最大化偏好响应的概率比，并优化LLM以模仿人类偏好。

给定输入条件下的生成结果，这些配对根据特定标准进行评估和排序。偏好数据从这些排序配对中构建，记为，其中和分别表示在和之间的偏好（获胜）和非偏好（失败）完成。DPO目标函数如下所示：

其中是逻辑函数，超参数调节对基准参考模型的偏差的惩罚。

链式偏好优化（Chain of Preference Optimization, CPO）

合成链式偏好思维

合成和收集偏好思维对的程序紧密遵循ToT的推理过程。整体的方案如上图所示。

思维生成，为每个推理步骤生成多个思维；
状态评估，评估每个思维；
搜索和收集，最终确定偏好思维。

思维生成

给定一个状态，表示包含输入和迄今为止的思维序列的部分解决方案，然后为下一步推理步骤采样个思维：

在初始输入（包含演示示例和要回答的问题）和之前的思维的条件下，LLM为下一步推理步骤生成多个思维。它遵循演示的格式，从“Step”开始，并采样个思维。通过设置生成字符串“Step”作为停止标准来控制模型在结束时暂停。从而得到个新状态，其中。

状态评估

给定不同的状态，利用LLM对这些状态进行推理并评估它们在解决问题方面的进展，无需外部奖励模型或人工标注。为了评估状态，输入到LLM的内容包括评估过程的特定演示示例、输入问题以及状态中的所有思维（即）。LLM遵循演示的格式，首先生成口头解释，然后从两个类别（可能和不可能）中生成分类结果。分类结果用于分配分数，可能 = 10，不可能 = 1。

使用的提示模板由两部分组成：（1）一般指南，（2）任务特定的演示示例。为了最小化随机性和偏差的影响，随机打乱演示示例的顺序，并重复采样生成的解释和评估结果。然后，计算状态的平均分数。评估的一般指南提示如下：

Evaluate whether the thought helps in partially or   directly answering the original question (likely/impossible)

搜索和收集

使用带有剪枝的广度优先搜索（BFS）作为搜索算法来选择推理路径。评估后，保留具有最高评估分数的n个最佳思维，并继续进行下一步的生成。当LLM生成包含“so the final answer is:”的思维时，搜索算法结束并返回所选路径。

如上图的右侧部分所示，在最终确定推理路径后，所选路径中的思维被标记为偏好（即获胜）思维。对于第步的每个偏好思维，构建相应的非偏好（即失败）思维。首先，识别包含所有先前思维的父状态，这些思维导致了。父状态的每个子思维，如果不是所选路径的一部分，则被选为非偏好思维，与相比。此过程为状态生成偏好对。强调的是构建的数据集包括推理链中每个步骤的偏好数据。这种每步配对偏好监督通常在之前的方法中被忽略。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述