COT数据如何生成

最新推荐文章于 2025-04-23 17:58:34 发布

数据分析能量站

最新推荐文章于 2025-04-23 17:58:34 发布

阅读量2.8k

点赞数 33

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_22337877/article/details/144997086

版权

机器学习专栏收录该内容

152 篇文章

订阅专栏

1 COT数据生成步骤

理解问题领域和类型
- 确定问题所属领域：首先要明确问题是属于数学、自然科学、社会科学、人文艺术等哪个大的领域。例如，如果是生成关于物理问题的CoT数据，就需要熟悉物理的各种概念，如力学、电磁学、热学等。因为不同领域的问题有着不同的知识体系和推理方式。
- 细分问题类型：在确定领域后，进一步细分问题类型。以数学领域为例，有代数问题（如解方程、函数求值等）、几何问题（如证明三角形全等、求几何图形的面积等）和概率统计问题（如计算事件概率、数据分析等）。对于不同类型的问题，CoT数据的生成方式会有所不同。比如，代数问题可能更侧重于公式的运用和运算步骤，几何问题则注重图形的观察和几何定理的应用。

收集和整理知识与推理规则
- 知识收集：针对特定的问题领域和类型，收集相关的基础知识。在化学领域，对于化学反应速率的问题，需要收集如化学反应速率的定义、影响因素（温度、浓度、催化剂等）、反应速率方程等知识。这些知识将作为CoT数据中的重要组成部分，用于引导模型进行推理。
- 推理规则整理：除了知识，还需要整理出解决问题的推理规则。在逻辑推理问题中，如三段论推理，规则是“大前提、小前提和结论之间的逻辑关系必须正确”。在数学证明问题中，推理规则可能包括“从已知条件出发，运用定理和公理逐步推导结论”。以几何证明为例，“如果要证明两个三角形全等，需要根据SSS（边边边）、SAS（边角边）等全等判定定理来进行推理”。

设计推理步骤模板
- 通用模板构建：根据问题类型，设计通用的推理步骤模板。对于数学应用题，一个通用模板可以是“第一步，仔细阅读题目，找出已知量和未知量；第二步，确定适用的数学公式或定理；第三步，将已知量代入公式进行计算；第四步，检查答案是否合理”。这个模板可以适用于多种数学应用题，如行程问题、工程问题等。
- 模板细化与个性化：在通用模板的基础上，根据具体问题的特点进行细化和个性化。例如，对于行程问题，在“找出已知量和未知量”这一步，可以特别提示要注意速度、时间和路程这三个关键量；在“确定适用的数学公式”这一步，明确是用路程 = 速度×时间，还是它的变形公式。

生成具体的CoT数据
- 实例化推理步骤：以一个具体的问题为例，如“一辆汽车以60千米/小时的速度行驶，行驶3小时后，行驶了多少千米？”按照前面设计的数学应用题模板，生成的CoT数据可以是“第一步，已知汽车速度为60千米/小时，行驶时间为3小时，未知量是行驶的路程；第二步，根据路程 = 速度×时间这个公式可以解决问题；第三步，将速度60和时间3代入公式，得到路程 = 60×3 =180千米；第四步，检查答案，因为速度和时间都是正数，按照公式计算得到的路程也是合理的”。
- 多样化数据生成：为了让模型更好地学习，需要生成多样化的CoT数据。可以通过改变问题的参数、改变问题的表述方式等方法。例如，对于上述行程问题，可以改变速度为80千米/小时，时间为2.5小时，或者将问题表述为“已知汽车行驶的路程为200千米，速度为50千米/小时，求行驶时间”等不同形式，然后生成相应的CoT数据。

验证和优化CoT数据
- 验证数据准确性：检查生成的CoT数据是否正确引导推理。可以通过人工检查或者用已知正确答案的问题来验证。例如，对于一个物理力学问题的CoT数据，按照推理步骤计算出的答案应该与通过物理公式手动计算的答案一致。如果不一致，需要检查是知识错误、推理规则错误还是步骤遗漏等问题。
- 优化数据可读性和有效性：确保CoT数据的语言简洁明了，易于理解。如果数据中使用了过于复杂的术语或者句子结构，可能会影响模型的学习效果。同时，根据验证结果和模型的实际学习情况，对CoT数据进行优化。例如，如果发现模型在某个推理步骤上经常出错，可以对这一步骤的提示进行更详细的说明或者提供更多的示例。

2 COT数据生成-人工标注法

2.1 Few-shot CoT（少量示例思维链）

概念与目的

Few - shot CoT（少量示例思维链）是一种通过向语言模型提供少量精心设计的带有推理步骤的示例，以引导模型学会如何进行推理并生成回答的技术。其主要目的是让模型在面对新问题时，能够模仿这些示例中的推理过程，从而提高模型在复杂任务中的性能，特别是那些需要逻辑推理和多步骤思考的任务。

例如，在回答数学应用题、文本逻辑推理或科学问题解释等任务中，Few - shot CoT帮助模型理解如何从问题描述中提取关键信息，构建推理路径，最终得出正确答案。

示例构建过程

问题设计
- 领域代表性：选择的问题要能够代表目标应用领域的各种类型。以自然语言处理中的文本分类任务为例，问题可以涵盖新闻分类（如政治、经济、体育等不同类别）、情感分析（正面、负面、中性情感）等多种类型。如果是数学领域，问题应包括代数、几何、概率统计等不同分支的典型问题。
- 难度层次分明：包括简单、中等和复杂程度的问题。简单问题用于让模型熟悉基本的推理模式，如在数学中，简单的代数问题可以是“已知x + 3 = 5，求x的值”。中等难度问题可能涉及多个概念或步骤，例如“一个直角三角形，已知一条直角边为3，斜边为5，求另一条直角边的长度并计算三角形的面积”。复杂问题则要求更深入的推理和综合运用知识，像在物理中，“一个物体在有摩擦力的斜面上运动，已知斜面的倾角、物体质量、摩擦系数和初始速度，求物体运动到斜面底部的时间和最终速度”。

推理链构建

然后，根据三角形面积公式S=1/2 ab，将a = 3，b = 4代入，可得面积
- 步骤分解：对于每个问题，将解决问题的过程分解为清晰的步骤。以刚才提到的中等难度数学问题为例，推理链可以是“首先，根据勾股定理a^{2}+b^{2}=c^{2}（其中c为斜边，a、b为直角边），已知c = 5，a = 3，可以求出另一条直角边
- 逻辑连贯：确保推理步骤之间具有逻辑连贯性。每一步都应该是前一步的自然延续，并且朝着最终答案的方向推进。在科学问题中，这种逻辑性更为重要。例如，在物理问题的推理链中，要依据物理定律和原理，如牛顿运动定律、能量守恒定律等，一步一步地推导。

答案确定与验证
- 准确计算答案：在完成推理链后，准确地计算出答案。对于复杂问题，可能需要仔细检查计算过程，确保答案的准确性。在编程问题中，要实际运行代码来验证答案是否正确。
- 合理性检查：除了答案的准确性，还要检查推理过程和答案是否符合实际情况和领域知识。例如，在几何问题中，边长不能为负数；在概率问题中，概率值必须在0到1之间。

应用场景

模型预训练与微调：在模型的预训练阶段，Few - shot CoT示例可以作为一种特殊的数据形式，帮助模型学习推理模式。在微调阶段，针对特定的任务领域，如医疗诊断、法律案例分析等，可以提供该领域的Few - shot CoT示例，让模型更快地适应新任务。
小数据场景：当可用的数据量有限时，Few - shot CoT尤为有用。例如，在一些新兴的研究领域或特定的企业内部数据场景，数据收集困难，通过少量精心设计的示例，就能引导模型学习如何解决该领域的问题。

优势与挑战

优势
- 高效学习：模型可以通过少量的高质量示例快速学习推理模式，而不需要大量的数据。这在一定程度上节省了数据收集和标注的成本。
- 可解释性增强：由于提供了明确的推理链，模型的输出变得更具可解释性。可以通过查看模型是否遵循了示例中的推理步骤来理解模型的决策过程。
挑战
- 示例设计难度大：需要人工精心设计问题和推理链，这要求标注人员对领域知识有深入的理解，并且能够以清晰、准确的方式表达推理过程。
- 泛化能力有限：模型可能过度依赖提供的少量示例，在面对与示例差异较大的问题时，推理能力可能会下降。因此，需要确保示例的多样性和代表性，以提高模型的泛化能力。

2.2 Complex CoT（复杂思维链）

Complex CoT（复杂思维链）是一种在语言模型推理中用于处理复杂问题的高级策略。它的核心是基于Self - Consistency（自一致性）的理念，通过生成多个不同的推理链和答案来挖掘问题的多种可能解决方案，从而提高模型对复杂问题的推理能力和回答的准确性。

在面对复杂问题时，单一的推理路径可能无法全面地考虑所有因素或者找到最优解。例如，在解决一个复杂的物理问题，如多物体相互作用、多种能量形式转换的场景中，或者在分析一个包含多层语义和逻辑关系的文本问题时，可能存在多种合理的思考方式和推理步骤。Complex CoT利用语言模型的生成能力，为同一个问题生成多条不同的推理链，就好像从不同的角度去审视问题，这些推理链可能基于不同的原理、方法或者假设。

生成过程

多推理链生成：
利用语言模型能力：使用功能强大的语言模型（LLM）来生成针对同一个测试问题的多条不同推理链和答案。以一个复杂的数学建模问题为例，如“在一个城市交通规划场景中，考虑人口增长、车辆保有量增加、现有交通设施承载能力等因素，建立一个交通拥堵预测模型”。语言模型可能会生成以下不同的推理链：
- 一种推理链是从统计学角度出发，“首先，收集过去多年的人口数据、车辆保有量数据和交通拥堵指数数据。然后，分析这些数据之间的相关性，例如使用回归分析来确定人口增长和车辆保有量增加与交通拥堵指数之间的量化关系。接着，考虑现有交通设施承载能力作为一个限制因素，建立一个包含人口变量、车辆变量和交通设施变量的多元回归模型，用于预测未来交通拥堵情况”。
- 另一种推理链可能从系统动力学的角度来考虑，“把城市交通系统看作一个动态系统，首先确定系统的各个要素，包括人口、车辆、道路、交通信号等。然后，分析各个要素之间的因果关系，例如人口增长导致出行需求增加，进而增加车辆出行次数，对交通设施产生压力。接着，构建系统动力学模型，通过定义各个要素之间的流量和存量关系，如车辆的产生率、消失率（报废等情况）、道路的通行能力等，来模拟交通系统的动态变化，最终预测交通拥堵情况”。
多样化推理起点和方法：在生成推理链时，鼓励语言模型采用不同的起始点和推理方法。例如，在一个文学作品主题分析问题中，对于“分析《百年孤独》的主题”，一条推理链可以从家族命运的角度出发，“首先，观察布恩迪亚家族的几代人，他们的兴衰、爱情、战争等经历。然后，发现家族成员在面对命运时的重复行为和相似的悲剧结局，这体现了命运的循环和不可抗拒性，由此可以推断出主题之一是命运的轮回与家族的兴衰”。另一条推理链可以从魔幻现实主义手法的角度来分析，“先关注小说中的魔幻元素，如美人儿蕾梅黛丝抓着床单升天等情节。这些魔幻元素与现实生活交织，暗示了现实世界的荒诞和人们对超自然力量的寄托，从而揭示出主题是现实与魔幻的交织，以及对拉丁美洲历史和文化的隐喻”。

推理链排序与筛选：
- 长度排序依据：按照推理链的长度进行倒序排序。较长的推理链通常包含更复杂的思考过程，可能涉及更多的中间步骤、条件分支或者因素考虑。例如，在一个科学实验设计问题中，推理链长可能意味着考虑了更多的实验变量、控制组设置、实验步骤细节等。然而，长度并不是唯一的筛选标准，只是初步的排序方式。
- 质量筛选标准：在排序后，需要根据一定的质量标准来保留TopK条推理链和答案。这些标准包括推理链的逻辑性、合理性以及是否符合领域知识和问题的实际要求。在一个计算机算法设计问题中，逻辑性要求推理链中的算法步骤是正确的、连贯的，从问题定义到算法设计再到复杂度分析等步骤都能合理地衔接。合理性体现在算法是否能够有效地解决问题，例如在设计一个排序算法时，算法的时间复杂度和空间复杂度要在合理的范围内，并且能够正确地对输入数据进行排序。对于领域知识的符合度，比如在化学合成路线设计问题中，推理链中的化学反应步骤必须符合化学原理，不能违反化学反应的基本规律，如物质守恒定律、氧化还原规律等。

投票选取最终预测：
- 多数原则应用：对于保留下来的推理链和答案，采用投票的方式选取最终预测。例如，如果多数推理链得到的答案是相近的，那么这个答案就更有可能是正确的。在一个多步骤的数学计算题中，不同的推理链可能在计算方法或者中间步骤的化简方式上有所不同，但如果最终计算得到的答案大部分相同，那么这个答案的可信度就比较高。
- 综合考虑因素：除了简单的多数原则，还需要综合考虑推理链的质量、多样性等因素。如果某一个答案虽然得到的票数不是最多，但它来自一条非常高质量、考虑因素全面的推理链，那么这个答案也不能轻易被忽视。例如，在一个复杂的经济现象分析问题中，一种答案可能通过较为简单的宏观经济指标分析得到，获得了较多票数，但另一种答案是通过深入分析行业内部结构、企业微观行为以及国际经济环境等多个因素得到的，尽管票数较少，但由于其考虑的因素更全面，在最终决策时也需要给予足够的重视。

如何生成多链路问答

调整输入提示（Prompts）策略

改变问题表述方式
- 词汇替换和句式变换：对于同一个问题，使用不同的词汇和句式来引导模型生成不同的回答链路。例如，对于“如何提高网站的用户流量”这个问题，可以将其表述为“有哪些策略能够增加网站的用户访问量”或者“怎样促使更多用户访问网站”。这些不同的表述可能会引导模型从不同的角度思考，如第一个表述可能会让模型侧重于“提高”相关的策略，如搜索引擎优化（SEO）提升网站在搜索结果中的排名；第二个表述可能会让模型更多地考虑用户激励措施，像推出吸引用户的活动等。
提供不同的初始条件或假设
- 设定不同场景：为问题设定各种不同的场景，从而引导模型生成多样的推理链路。以“一个企业如何进行市场扩张”为例，可以设定场景为“在经济繁荣时期的市场扩张”和“在经济衰退时期的市场扩张”。在经济繁荣时期，模型可能会生成诸如加大广告投入、开设新的分支机构、推出高端产品等扩张策略的回答链路；而在经济衰退时期，模型可能会考虑成本控制下的市场渗透策略，如优化产品线、聚焦特定客户群体、开展线上营销降低实体店铺成本等。
增加或改变约束条件：在问题中增加不同的约束条件，也能使模型生成不同的推理路径。比如对于“设计一个城市公园”的问题，增加约束条件“在有限的预算内”，模型可能会生成注重成本效益的设计链路，如选择本地常见植物以降低植物采购成本、采用简单实用的景观设施等；如果约束条件是“要满足举办大型文化活动的功能”，模型则可能会设计更开阔的广场空间、完善的舞台设施等相关的链路。

利用多轮对话引导

逐步引导提问：通过多轮对话，逐步引导模型生成不同的回答。例如，对于“如何解决城市交通拥堵问题”，第一轮可以问“从公共交通的角度怎么解决”，模型可能会生成增加公交线路、优化公交时刻表等链路；第二轮再问“从交通管理政策的角度呢”，这时模型可能会考虑实施限行政策、调整停车收费标准等不同的策略链路。
追问细节和不同方向：在模型给出一个回答链路后，通过追问细节或者引导向其他方向，促使它生成新的链路。比如，模型回答解决交通拥堵可以通过“发展智能交通系统”，接着追问“智能交通系统中的车路协同方面有哪些具体措施”，这样就可以引导模型深入到车路协同这个子领域，生成如车辆与交通信号灯通信、高精度地图辅助驾驶等具体的链路。

引入外部知识和示例引导

提供不同知识领域观点：将不同知识领域的观点引入问题引导中，使模型生成跨领域的不同回答链路。例如，对于“如何改善教育质量”的问题，引入心理学观点“从学生学习心理的角度看，怎样改善教育质量”，模型可能会生成关注学生动机激发、学习风格匹配等链路；再引入技术领域观点“从教育技术应用的角度呢”，模型可能会考虑在线教育平台建设、虚拟现实教学工具开发等不同的链路。
给出不同示例作为启发：提供不同的示例来启发模型生成新的链路。以“如何进行产品创新”为例，给模型一个苹果公司通过技术创新推出iPhone改变手机行业的示例，它可能会生成以技术驱动产品创新的链路；再给出一个可口可乐通过包装和营销创新吸引消费者的示例，模型可能会考虑从包装设计和营销渠道创新方面来回答的链路。

模型参数和架构相关方法（对于有条件调整的模型）

调整温度参数（Temperature）：在模型生成回答时，温度参数可以控制生成的随机性。较高的温度（如1.5 - 2.0）会使模型生成更多样化、更具创造性的回答链路，但可能会牺牲一些准确性；较低的温度（如0.2 - 0.5）会使模型生成更保守、更确定的回答。例如，在生成故事创作的链路时，高温度下模型可能会创造出情节离奇、角色关系复杂的故事链路；低温度下则可能生成比较常规、遵循常见故事结构的链路。
使用不同的模型版本或微调后的模型：如果有条件，可以尝试不同版本的模型或者经过不同数据微调后的模型。例如，一个基础版本的语言模型可能会按照常见的逻辑生成回答链路，而经过特定领域数据（如医疗领域数据）微调后的版本，在回答医疗相关问题（如“如何诊断罕见疾病”）时，会生成更贴合医疗专业知识和实践经验的链路，如从基因检测、罕见症状分析等专业角度的链路。

应用场景

复杂科学问题求解：在物理、化学、生物学等自然科学领域的理论研究和实验设计中，Complex CoT可以发挥重要作用。例如，在量子物理中，对于“解释量子纠缠现象及其在量子通信中的应用”这样复杂的问题，通过生成多条不同的推理链，从量子力学的基本原理（如叠加态、波函数等）出发，到量子纠缠的数学描述，再到量子通信中的具体协议和实际应用场景，可以帮助科学家或学生更好地理解这一复杂概念。
工程问题分析与设计：在机械工程、电子工程、土木工程等领域，Complex CoT有助于分析复杂的工程系统和设计优化方案。以建筑结构设计为例，对于“设计一个能够抵御特定地震强度的高层建筑结构”的问题，通过不同的推理链可以从结构力学、材料力学、地震工程学等多个角度来考虑。比如，一条推理链从结构选型出发，考虑框架 - 剪力墙结构、筒体结构等不同结构形式在地震作用下的受力特点；另一条推理链从材料性能角度，分析高强度钢材、高性能混凝土等材料在提高结构抗震能力方面的优势，从而综合多种方案来优化建筑结构设计。
人文社科领域的深度分析：在历史、社会学、哲学等人文社科领域，Complex CoT可以用于对复杂的社会现象、历史事件或者哲学理论进行深度分析。例如，在分析法国大革命的原因和影响时，通过不同的推理链可以从社会阶级矛盾、启蒙思想传播、财政危机等多个方面进行阐述。一条推理链可能聚焦于农民阶级和贵族阶级之间的经济矛盾和土地问题，另一条推理链可能着重分析启蒙运动中自由、平等、民主思想如何激发了民众的革命意识，通过这种多维度的分析来全面理解法国大革命这一复杂的历史事件。

优势与挑战

优势：
- 挖掘多种推理可能：能够充分利用语言模型的生成能力，挖掘出多种可能的推理路径。这对于复杂问题来说是非常宝贵的，因为复杂问题往往没有单一的解决方案。例如，在解决复杂的数学证明问题时，不同的推理路径可能会涉及不同的数学定理和方法组合，Complex CoT可以将这些潜在的方法都呈现出来，为问题解决提供更多的思路。
- 提高答案准确性和可靠性：通过筛选和投票机制，综合考虑了多个推理链的结果，提高了答案的质量、准确性和可靠性。在处理容易出现歧义或者多种解释的问题时，如文学作品解读、法律条文解释等，这种综合考虑多种推理的方式能够减少错误答案的出现，使最终的回答更符合实际情况和专业要求。
- 促进知识融合与创新：不同推理链可能基于不同的知识领域或者方法，通过Complex CoT可以促进这些知识的融合。在跨学科问题解决中，例如生物医学工程中的组织工程问题，涉及生物学、材料学、工程学等多个学科的知识，Complex CoT可以生成从不同学科角度出发的推理链，有助于研究人员整合这些知识，产生新的创新解决方案。

挑战：
- 计算资源消耗大：生成多条推理链需要大量的计算资源，尤其是当问题复杂且需要高质量的推理链时。这对于硬件设备和计算时间都有较高的要求。例如，在处理大规模的数据中心设计问题时，为了生成足够数量和质量的推理链，可能需要使用高性能的服务器集群，并且运行时间可能会很长。
- 推理链质量评估复杂：评估推理链的质量是一个复杂的过程，需要考虑逻辑性、合理性、领域知识符合度等多个因素。在一些新兴的跨学科领域或者没有明确标准的问题中，如人工智能伦理问题，很难确定一个统一的质量评估标准。而且，对于推理链中的中间步骤是否合理，可能需要领域专家进行深入分析，这增加了质量评估的难度。
- 模型训练要求高：Complex CoT对语言模型本身的训练要求较高。模型需要具备足够的知识储备和推理能力，才能生成多样化且高质量的推理链。如果模型没有经过充分的训练或者缺乏相关领域的知识，可能无法生成有效的推理链。例如，在要求对古代哲学文献进行深度分析的问题中，如果语言模型没有经过大量的哲学知识训练，就很难生成符合哲学思考方式的推理链。

3 COT数据生成-自动生成法

3.1 Auto-CoT

问题聚类阶段：
- 目的是把给定数据集中的众多问题按照一定规则进行分类整理。这里采用的是聚类的思想，具体可借助像 K-means、层次聚类等常见的聚类算法来实现。例如，K-means 算法会事先设定好聚类的数量 K，然后通过不断迭代计算，将各个问题依据其特征（在这里主要是语义特征以及推理难度方面的特征）划分到不同的类别中，使得同一类（簇）内的问题在语义和推理难度上较为相似，而不同簇的问题有着明显差异。层次聚类则是通过构建树形的聚类结构，逐步合并或者分裂簇，最终也达成将相似问题归为一簇的效果。
- 通过这样的聚类操作，能让后续处理更具针对性，为从每类中选取合适的代表问题做好铺垫。
代表性问题选取及推理链生成阶段：
- 在完成聚类后，会从每个已经形成的簇中挑选出一个具有代表性的问题。选取的标准通常是能够很好地体现该簇内问题的共性特点等情况。
- 接着，针对选出来的这个代表性问题，运用 Zero-Shot-CoT 方法来生成与之对应的推理链。Zero-Shot-CoT 方法是一种在不需要大量额外示例引导的情况下，尝试让模型直接生成推理链的技术手段。
- 在这个过程中，还需要对生成的内容进行条件筛选，例如规定问题的长度不能超过 60 个 tokens（token 可以简单理解为语言处理中的一个基本单元，比如单词、标点符号等都可能是一个 token），同时推理链所包含的推理步骤不能多于 5 个。只有满足这些限定条件的问题及其推理链，才会被进一步考虑。
构建演示列表阶段：
- 经过前面的筛选，那些符合条件的问题及其对应的推理链，会被添加到 demonstrations 列表当中。这个列表实际上就是收集了一系列经过自动筛选和生成的优质示例，这些示例后续有着重要作用。
- 最终，这些自动生成好的演示内容会被当作输入信息提供给语言模型（LLMs），目的是引导语言模型在面对新的问题时，能够参考这些示例，生成与之类似的推理链，从而帮助模型更好地进行推理和回答问题，提升其回答的逻辑性和准确性。

3.2 Retrieval-Q-CoT

问题编码阶段：
- 首先会运用 Sentence-BERT 这一工具来对问题进行编码处理。Sentence-BERT 是一种能够将自然语言文本（在这里就是一个个问题）转化为向量表示的技术，它可以捕捉到句子的语义信息，并通过向量的形式将其量化表示出来。这样做的好处是方便后续去衡量不同问题之间的相似度。
相似问题选取阶段：
- 在完成对所有问题的编码后，会在整个问题集合中去寻找与当前待处理问题相似度最高的前 k 个相似问题。这里的相似度衡量就是基于前面 Sentence-BERT 生成的向量表示，通过计算向量之间的距离等方式来判定，距离越近意味着相似度越高。找到的这 k 个相似问题，就相当于为当前问题找到了在过往数据中与之较为相关、可以参考的一些示例，也就是所谓的 demo。
推理链生成及输入构建阶段：
- 对于选出来的这 k 个相似问题，会使用 Zero-shot 方法来为它们分别生成 CoT（推理链）。Zero-shot 方式同样是让模型在较少额外提示的情况下尝试生成相应的推理步骤链条。
- 在为这 k 个问题都生成好推理链之后，会把这些推理链按照一定顺序串联拼接起来，然后将拼接好的内容作为输入信息去提问大模型。大模型接收到这样包含了多个相似问题推理链的输入后，就可以参考其中的逻辑和思路，来更好地处理当前的问题，进而给出更合理、更有逻辑性的回答。

4 COT数据生成-混合生成法

4.1 基于大模型辅助的生成

这种方法主要利用大型语言模型（LLM）来生成和验证复杂推理问答对，具体步骤如下：

生成复杂推理QA对：以videoespresso数据集为例，首先使用GPT-4O模型根据多帧描述生成复杂的推理问答对。这意味着模型需要理解视频中的多个帧，并从中提取出能够引发复杂推理的问题和答案.
验证QA对的质量：生成的问答对需要经过辅助LLM的验证，以确保其质量。验证的内容包括：
- 事实准确性：确保问答对中的信息是真实可靠的，没有错误的事实陈述.
- 去除幻觉：避免生成基于错误或不存在信息的问答对，即没有幻觉或虚构内容.
- 开放性问题：确保生成的问题具有开放性，能够引发更深入的思考和讨论，而不是简单的封闭性问题.
引入视频CoT注释：在验证后的问答对中引入视频的思维链（CoT）注释。思维链注释是对推理过程的详细解释，可以帮助理解问题是如何被解答的。例如，可以细化推理步骤，说明每个步骤是如何从视频内容中得出的.
提取文本证据和识别关键对象：使用GPT-4O模型从视频内容中提取与问答对相关的文本证据，识别出关键对象和信息。这有助于进一步支持问答对的准确性和可靠性.

4.2 知识蒸馏法

知识蒸馏法是一种通过教师模型指导学生模型学习的方法，具体步骤如下：

教师模型的CoT输出：首先选择一个更大的教师模型，如PaLM 540B或GPT-3 175B。利用这些教师模型对现有的监督数据集进行思维链（CoT）推理注释。这意味着教师模型会生成详细的推理过程，解释如何从数据中得出答案.
生成CoT：使用8个示例执行少镜头提示，以生成思维链（CoT）。少镜头提示是一种通过少量示例来引导模型生成特定输出的方法。通过这种方式，可以在有限的示例下生成高质量的思维链.
剔除不正确的CoT：根据目标答案，剔除那些不正确的思维链，以保证生成的CoT的质量。这一步是为了确保学生模型能够学习到正确的推理过程.
教师强迫微调：最后，使用教师模型的输出对学生模型进行微调。具体来说，将问题作为输入，思维链和答案作为目标，通过教师模型的指导，帮助学生模型更好地学习推理过程和生成准确的答案.

5 其他生成COT方法

5.1 反向思维链（R-CoT）

基本概念：反向思维链是一种两阶段的生成方法，主要用于生成几何问题。第一阶段生成高保真的几何图像和对应的详细描述，突出几何元素之间的关系。第二阶段则从推理输出反向生成问题，通过逐步的方法，先将推理分解为单步结果，然后逐步融合以创建多步推理结果，最后根据这些多步结果生成问题。
优势：这种方法能够弥补合成数据与实际数据之间的差距，生成更逼真的几何图文问答数据，提升大型多模态模型（LMMs）解决实际几何问题的能力。实验表明，R-CoT数据比现有合成数据更逼真，对LMMs解决实际几何问题的能力有更大的促进作用。

5.2 投票式CoT

基本概念：投票式CoT基于一个思想，即一个复杂的推理任务可以有多种推理路径，最终都能够得到正确的答案。具体做法是：对于单一的测试数据，通过多次的解码采样，生成多条推理路径和答案，然后基于投票的策略，选择最一致的答案。
优势：这种方法能够提高推理的准确性和鲁棒性。当推理链数量足够多时，投票式CoT的效果能够胜过使用贪心解码的CoT方法。此外，结合多样化的提示和验证器等策略，还可以进一步提升推理的准确性和一致性。

6 COT提示框架

6.1 CoTGenius

进化策略
- 复杂化（Complicate）：通过添加条件和约束或加深问题的深度，使初始问题变得更加复杂，从而拥有更多的推理步骤。例如，可以增加问题中的变量数量或引入更复杂的逻辑关系.
- 多样化（Diversify）：通过改变问题的背景或从问题中获取灵感来构造全新的问题，增加问题类型的多样性。例如，将数学问题的场景从学校环境改为商业场景，或者从代数问题转换为几何问题.
- 具体化（Specify）：通过增加推理步骤的细节和标准化现有推理步骤来提高思维链的具体性。例如，在推理过程中详细描述每个步骤的计算过程和逻辑依据，使推理更加清晰和易于理解.

过滤机制
- 进化成功判断：利用多个大型语言模型（如ChatGPT、Claude和PaLM）进行投票，评估复杂化和多样化进化是否实现了相应的进化目标。如果多数模型认为进化后的CoT提示质量更高，则认为进化成功.
- 正确性验证：同样利用多个大型语言模型对生成的CoT提示进行正确性验证，确保推理过程和结果的准确性。如果发现错误或不一致的地方，将对CoT提示进行修正或重新生成.

应用与效果
- 数据集构建：使用CoTGenius框架生成了大规模的CoT数据集，包含44335个样本，覆盖了常识推理、数学推理、科学推理和符号推理等多种类型。
- 模型微调：基于这些高质量的CoT数据，对开源的大型语言模型（如Llama 2-Chat 7B和13B模型）进行微调，形成了新的模型ChainLM。
- 性能提升：实验结果显示，ChainLM模型在解决一系列复杂推理问题上展现出了显著增强的能力，相比现有的模型有显著的性能提升。

6.2 Search-in-the-Chain（SearChain）

Search - in - the - Chain（SearChain）是一种创新的推理方法，主要用于在语言模型的思维链（Chain - of - Thought，CoT）中进行有效搜索，以提高模型在复杂推理任务中的性能。它旨在解决传统CoT方法可能存在的推理路径有限、无法充分利用中间推理步骤等问题。

核心原理

基于搜索的推理改进：SearChain将搜索机制融入到思维链的构建和利用过程中。在传统的CoT中，推理链是相对固定的线性结构，而SearChain允许在这个链中进行搜索操作。例如，在回答一个复杂的数学问题或逻辑谜题时，它不是简单地按照预先设定的思维链步骤进行，而是可以在已有的推理步骤中寻找更合适的线索或者对推理方向进行调整。
动态推理路径探索：它能够动态地探索不同的推理路径。通过在思维链中搜索，模型可以发现新的关联和可能性。以文本生成任务为例，在生成一个故事时，SearChain可以在已经生成的情节步骤（思维链）中搜索，找到可以进一步拓展情节或者改变故事走向的节点，从而生成更丰富多样的故事内容。

工作流程

思维链构建阶段：
- 首先，像传统的CoT方法一样，根据问题类型和已知信息构建一个初始的思维链。这个思维链可以是基于规则、示例或者模型自身的推理生成的。例如，在解决一个科学实验推理问题时，思维链可能包括对实验目的、实验步骤、实验现象观察和初步结论等环节的描述。
搜索启动与节点评估：
- 在思维链构建完成后，SearChain开始对思维链中的节点进行搜索。这些节点可以是推理步骤、中间结论或者相关的信息点。在搜索过程中，会对每个节点进行评估，评估的标准可以包括节点的重要性、与目标答案的相关性、潜在的推理价值等。例如，在一个历史事件分析的思维链中，对于某个节点“该事件对当时经济的影响”，会评估它对于最终回答事件的全面影响这个目标答案的重要性和相关性。
搜索策略应用：
- 采用多种搜索策略来遍历思维链中的节点。可以是深度优先搜索（深入探索一个可能的推理分支）、广度优先搜索（同时探索多个分支的第一步）或者启发式搜索（根据一定的经验规则或启发信息来优先选择更有希望的节点）。例如，在一个复杂的数学证明思维链中，深度优先搜索可能会一直沿着一个可能的证明思路深入下去，直到遇到困难或者证明完成；而启发式搜索可能会根据已知的数学定理和常见的证明模式，优先选择那些更有可能引导成功证明的节点。
推理路径调整与优化：
- 根据搜索的结果，对思维链的推理路径进行调整。如果发现某个节点有更高的潜在价值，可能会改变原来的推理方向，从这个节点展开新的推理分支，或者对现有的分支进行修正。例如，在一个产品营销方案设计的思维链中，通过搜索发现某个用户需求分析节点有新的重要信息，可能会调整后续的营销渠道选择和促销策略设计等推理分支。
答案生成阶段：
- 经过搜索和推理路径的调整后，最终生成答案。这个答案是在优化后的思维链基础上得到的，相比传统CoT方法可能会更加准确、全面或者有创意。例如，在一个创意写作任务中，通过SearChain调整后的思维链生成的故事结局可能会更加出人意料且符合逻辑。

优势

提高推理准确性：通过在思维链中进行搜索和优化，可以避免因为固定的推理路径而导致的错误，能够更好地利用中间推理步骤中的信息，从而提高答案的准确性。例如，在解决复杂的数学应用题时，能够及时发现并纠正推理过程中的错误计算或者不合理的假设。
增强推理灵活性：SearChain允许模型动态地改变推理方向，适应不同的问题情境和信息变化。在面对开放性问题或者信息不完整的情况时，这种灵活性尤为重要。比如在一个社会科学研究问题的回答中，新的数据或者观点出现时，能够及时调整思维链来融入这些新信息。
丰富推理多样性：可以探索多种推理路径，生成更加多样化的答案。在创意写作、产品设计等领域，这种多样性能够带来更多的创意和解决方案。例如，在广告文案创作中，通过不同的思维链搜索和调整，可以生成多种风格和创意的广告文案。

应用场景

学术领域：在数学、物理、化学等学科的复杂问题解决和学术论文写作中，帮助学者和学生更好地进行推理和阐述观点。例如，在物理的理论推导中，SearChain可以帮助物理学家在复杂的公式推导思维链中找到新的思路和方向。
自然语言处理任务：如文本生成、机器翻译、问答系统等。在文本生成中，可以优化故事情节的构建；在机器翻译中，能够更好地处理复杂句子结构的翻译推理；在问答系统中，提高对复杂问题的回答准确性和完整性。
创意产业和设计领域：在广告创意、产品设计、建筑设计等领域，用于生成多样化的创意方案和设计思路。例如，在建筑设计中，通过在设计理念、功能布局、外观造型等思维链中进行搜索和调整，生成更具创意和实用性的建筑设计方案。

6.3 AtomThink

AtomThink是一个由中山大学、港科大、上海交大、香港大学和华为诺亚方舟实验室的研究人员联合开发的多模态数学推理慢思考框架。

核心组件

多模态CoT注释引擎：利用动态提示和短CoT增强策略，从现有数据集中生成高质量的长CoT数据。通过GPT-4o辅助，将原始推理过程分解成多个原子步骤，并创建了AtomMATH数据集，包括AMATH-SFT和AMATH-PRM两个子集，分别用于监督指令微调和过程监督训练。
原子步骤微调策略：对MLLM进行指令微调和过程监督训练，以增强其解码能力，并使其学习近似马尔可夫决策过程的输出格式。在训练过程中，通过将输入数据重构为独立的历史状态和当前动作，让多模态大模型学习近似马尔可夫决策的输出格式。
搜索策略：在推理阶段，采用路径维度搜索和步骤维度搜索策略，以从多个候选步骤中选择最佳路径。路径维度搜索包括多数投票、Best-of-N等；步骤维度搜索包括贪心算法、Beam Search等。

关键技术特点

原子步骤质量评估：率先提出了一种原子步骤质量评估策略，从GPT-4o的推理行为分布中构建一个规范的推理能力集合，代表高级智能模型在进行思考时所使用的不同能力。最后，将候选模型输出应用结果监督和重映射来估计其对应能力的综合得分。
步级掩码训练：在AtomMATH数据集上微调MLLM时，通过步级掩码训练，迫使模型学习多轮自我对话能力，生成专注于个体推理动作的推理。

工作流程

首先，多模态注释引擎利用动态提示和短CoT增强策略从现有数据集中生成高质量的长CoT数据，并创建AtomMATH数据集。
然后，在AtomMATH数据集上对MLLM进行指令微调和过程监督训练，以融入慢思考能力。
最后，在推理阶段，利用搜索策略从多个候选步骤中选择最佳路径，以找到最优预测节点。

实验效果

在MathVista和MathVerse两个基准测试中显著提升了模型的性能。与基线模型相比，在QuickThink模式下已经取得了显著改进；而在SlowThink模式下，性能提升更为显著，甚至超过了一倍。Best-of-N策略结合平均得分聚合，取得了最佳性能。

优势与意义

优势：通过关注原子步骤的质量，提升了模型在多模态数学任务中的推理性能，减少推理过程中的幻觉，并提高模型的可解释性。
意义：为开发更通用的慢思考模型铺平了道路，有望在多模态人工智能领域中发挥重要作用，特别是在需要复杂推理和问题解决能力的场景中。

6.4 Tree-of-Thought（ToT）

Tree - of - Thought（ToT）是一种用于增强语言模型推理能力的框架。它通过将问题的解决过程表示为树状结构，即思维树，来系统性地探索不同的思考路径和推理策略，以找到最优解。这种树状结构允许模型在推理过程中同时考虑多个方向，而不像传统的思维链（Chain - of - Thought）那样只是线性的推理路径。

背景：在复杂的推理任务中，传统的方法可能会因为过早地陷入局部最优解或者缺乏对多种可能性的探索而导致结果不佳。ToT的出现是为了解决这些问题，它借鉴了人类在思考复杂问题时会考虑多种可能性并逐步评估的方式。

主要构成要素

节点（Nodes）：
- 思维树中的节点代表一个中间思考状态或部分解决方案。例如，在解决一个数学谜题时，一个节点可能是某一种尝试的解题步骤组合，或者是在文本生成任务中，一个节点可能是一段已经生成的文本内容。
- 每个节点都可以进一步扩展，生成子节点，代表从这个中间状态出发的不同推理方向或下一步行动。
边（Edges）：
- 边连接着不同的节点，它表示从一个思考状态到另一个思考状态的转换关系。这种转换通常是基于某种推理规则或操作。例如，在游戏策略规划中，一条边可能表示根据某种战术从一个局面转换到另一个局面的操作。
分支（Branches）：
- 从一个节点出发的多个边及其连接的子节点构成了一个分支。分支代表了对问题的不同解决思路或推理方向。例如，在猜数字游戏中，一个节点是当前猜测的数字，不同的分支可能是根据猜测结果（偏大、偏小或正确）而采取的不同下一轮猜测策略。

工作流程与推理过程

问题分解与初始节点生成：
- 首先将给定的复杂问题分解为可以在树状结构中表示的子问题或初始思考状态。例如，对于一个复杂的逻辑谜题，可能会先确定一些初始的假设或已知条件作为思维树的根节点。
- 这些初始节点是推理的起点，它们的质量和多样性会影响后续整个思维树的发展和最终能否找到有效解决方案。

分支扩展与探索：
- 从初始节点开始，通过应用一系列的推理规则、策略或者生成操作来扩展分支。在文本创作任务中，可能会根据不同的主题方向、风格要求等因素来生成不同的分支。
- 在探索分支时，模型会不断评估每个分支的潜力，这可以通过一些预定义的评估指标（如可能性、合理性、与目标的接近程度等）来进行。例如，在数学证明任务中，会评估每个分支的推理步骤是否符合数学逻辑和是否有可能导向最终的证明。

回溯与剪枝（Pruning）：
- 当在某个分支上遇到困难（如推理无法继续、与已知条件矛盾或者明显偏离目标）时，模型会进行回溯，回到之前的节点，尝试其他分支。
- 同时，为了提高效率，会对那些明显没有希望的分支进行剪枝，即停止对这些分支的进一步探索。例如，在搜索算法中，如果一个分支已经超出了时间限制或者资源限制，或者其发展趋势明显不符合要求，就会被剪掉。

收敛到最优解：
- 通过不断地分支扩展、评估、回溯和剪枝，思维树逐渐生长和演化，最终收敛到一个或多个最优解。这些最优解可能是一个确定的答案、一个最佳的策略或者是一组最符合要求的文本内容等，具体取决于任务的性质。

应用场景与优势

应用场景：
- 复杂推理任务：如数学推理、逻辑谜题求解等。例如，在解决复杂的数学方程组问题时，ToT可以同时探索多种代入消元或加减消元的策略组合，而不是只依赖一种固定的方法。
- 文本生成与创意写作：可以帮助生成多样化的故事情节、诗歌主题等。比如在创作一个科幻小说时，ToT可以从不同的科技元素、角色设定、情节冲突等方面生成多个分支，然后选择最有创意的路径进行创作。
- 游戏策略规划：在棋类游戏或者策略游戏中，用于规划最优的游戏策略。例如，在围棋中，ToT可以帮助棋手考虑多种落子策略及其后续变化，从而选择最有利的下法。

优势：
- 增强探索能力：相比于线性的思维链，ToT能够更全面地探索问题的解决方案空间，避免过早陷入局部最优解，从而提高找到全局最优解的概率。
- 提高推理灵活性：它允许在推理过程中动态调整策略，根据不同分支的发展情况灵活切换思考路径，更好地应对复杂多变的问题。
- 提升结果质量：通过系统性地评估和选择最优分支，能够得到质量更高、更合理的解决方案，无论是在准确性还是在创造性方面都有更好的表现。

与其他推理方法的比较

与Chain - of - Thought（CoT）对比：
- CoT是一种线性的推理方式，它按照一定的步骤顺序进行推理，从问题直接导向答案。而ToT是树状结构，有多个分支和多种可能性的探索。例如，在回答一个历史事件的原因时，CoT可能会按照时间顺序依次阐述几个主要原因，而ToT可能会从政治、经济、文化等多个角度同时展开不同的推理分支，然后综合评估。
- ToT在处理复杂、具有多种可能性的问题时更具优势，能够提供更丰富的思考路径，而CoT在一些简单的、步骤明确的推理任务中可能更高效。
与传统搜索算法对比：
- 传统搜索算法（如广度优先搜索、深度优先搜索）主要关注于状态空间的遍历，而ToT不仅考虑遍历，还注重对每个状态（节点）的推理和评估。例如，在路径规划问题中，传统搜索算法可能只是单纯地寻找从起点到终点的可行路径，而ToT会在寻找路径的过程中，对每个可能的路径节点（如路口选择）进行思考和评估，考虑其是否符合其他目标（如避开拥堵、经过特定地点等）。