无需思考的思考：通过代理管道重新审视链式思维推理在LLMs中的解释价值-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147718207

RAMESH MANUVINAKURIKE*, EMANUEL MOSS*, ELIZABETH ANNE WATKINS*, SAURAV SAHAY, GIUSEPPE RAFFA, 和 LAMA NACHMAN，Intel Labs，美国

代理管道为以人为中心的可解释性提出了新的挑战和机遇。HCXAI社区仍在努力寻找以最佳方式使大型语言模型（LLMs）内部工作原理透明化的方法。代理管道由多个LLMs组成，它们以最小的人类控制协同工作。在本文中，我们展示了感知任务指导系统的一个代理管道实现的早期研究结果。通过定量和定性分析，我们探讨了链式思维（CoT）推理——一种在LLMs中常见的可解释性工具——在代理管道中的运作方式。我们证明，仅凭CoT推理并不能产生更好的输出，也不能提供可解释性，因为它往往会产生没有解释力的解释，即这些解释并未提高最终用户更好地理解系统或实现目标的能力。

额外关键词和短语：发表于2025年CHI大会的人工智能可解释性研讨会（HCXAI），DOI: 10.5281/zenodo. 15170393

1 引言

可解释人工智能（XAI）日益被认为是负责任地开发和部署AI系统的关键且高度期望的属性[3]，同时也具有问责性[32]和有效性[10]。解释旨在帮助人们理解和适当地使用AI系统的输出，并为各种感兴趣的群体提供对系统功能的洞察[10]。随着基于大型语言模型（LLMs）的AI系统（如ChatGPT的核心生成预训练变换器（GPT）模型[26]和DeepSeek[13]）的广泛兴趣和采用，这种解释的需求变得更加迫切。最近，模型架构开始实施“链式思维”（CoT）技术[25, 39]，提示模型“逐步推理”[36]并根据该推理调整其输出以改善结果[33, 41]。这种CoT推理已被纳入前沿模型作为其“草稿本”记忆的一部分，在生成输出前进行组合思维[1]，并且也被提议作为一种“CoT解释”或可解释性的形式，提供所谓的导致特定输出的推理过程的洞察[40]（但参见[18, 35, 36]）。

尽管CoT通常类似于溯因推理[14, 21]，即合理化并将可能的解释与给定数据拟合，但CoT文本往往会导致没有解释力的解释，容易生成看似合理但错误、矛盾或无关的内容[28]。在本文中，我们介绍了一种代理管道框架，作为支持制造环境中工厂技术人员任务执行的感知任务指导系统的一部分，该框架正在非工厂环境中进行测试和验证，使用玩具车辆（起重机、自卸卡车、推土机等）的组装和拆卸作为制造任务的替代品[30]。下面介绍的代理管道框架表明，CoT推理既不会带来更好的输出，也不会为其输出提供可解释性。

*作者对本研究的贡献相等。
作者联系方式：Ramesh Manuvinakurike, ramesh.manuvinakurike@intel.com；Emanuel Moss, emanuel.moss@intel.com；Elizabeth Anne Watkins, elizabeth.watkins@intel.com；Saurav Sahay, saurav.sahay@intel.com；Giuseppe Raffa, giuseppe.raffa@intel.com；Lama Nachman, lama.nachman@intel.com，Intel Labs，美国俄勒冈州希尔斯伯勒。
我们展示了前者点的经验研究和后者点的分析，并提出如何将我们的代理管道与CoT方法结合使用，以提高AI系统的可解释性。

2 相关工作

以人为中心的AI可解释性新兴子领域建立在传统可解释性的基础上，通过扩大关注范围从AI模型扩展到AI部署的社会技术组件。这包括考虑非专家AI最终用户如何理解AI系统的工作原理、输入是如何创建的以及解释如何影响用户行为[15]。LLMs的出现使这一领域复杂化，正如之前几届CHI HCXAI研讨会所探讨的那样[5, 11, 29, 43]。虽然我们仍处于解开这一难题的早期阶段，但代理系统已被提议作为一种生成可解释性的手段[9, 24, 28, 38]，因为它们可以记录指令在代理之间的传递方式，“允许最终用户追溯结论回到其源数据”[24]。（有关此架构的更多详细信息，请参见第4节）。然而，代理架构存在风险，即产生的是可解释性而非一群LLMs玩类似儿童传话游戏的情况，在这种游戏中，人们在链条中低声传递他们认为是相同的信息，直到最后一个人说出信息时，所有人都发现信息不可避免地发生了扭曲，通常以有趣的方式[20]。这些大量的LLM代理带来了“级联风险”的新挑战[20]，其中人类已经将控制和监督权让给了多参与者系统中的信息传递[6]。

3 数据

我们准备了一个基准数据集来评估代理管道中各种模型的回答性能。该数据集包含两类问题：任务型（Task）问题和社会/组织型（Org-Soc）问题。我们的任务型问题基于Assembly 101数据集[30]，该数据集提供了一种开源方法来构建支持人类完成物理情境任务的系统。我们的任务型问题围绕着组装和拆卸诸如起重机、卡车、挖掘机等玩具展开，用于探查模型在任务型性能支持方面的能力（例如，我该如何移除车轮？）。对于我们的社会/组织型问题，我们采取了一种新颖的参与式方法[19]。我们采访了与我们合作构建感知任务指导系统的制造技术人员。我们与他们一起编制了一组他们在实际工作中希望向代理询问的问题。这个过程揭示了技术人员假设像我们的系统这样的AI助手具备比实际更广泛的能力。这一见解（即将发表）指出了基础模型性能衡量方式与现有基准之间，以及LLMs和代理系统被部署到的任务、组织和社会现实之间的复杂重叠之间的差距。这种参与式方法使我们系统的评估更接近真实世界。我们的玩具装配数据集包含152个参与式社会/组织型问题，每种玩具（共评估了三种玩具）有43个任务型问题。两组问题（任务型和组织/社会型）都被提交给多个模型。回答（N=750/300（任务型），300（组织/社会型），150（思考型））随后根据一个类似李克特量表（-1, 0, 0.5, 1）对其准确性、全面性和有用性进行评分，评分对象为理想化的执行所需任务的技术人员。评分首先由三位作者对一部分问题-CoT-答案元组进行，他们都对相同的子集元组进行了评分以协调注释者间的一致性，然后使用LLM-as-a-judge (GPT-4o[27]) 进行评分方案提示，评分元组(N=2529)。除了数值评分和定量分析外，我们还对CoT文本相对于问题和答案进行了定性分析。

${ }^{1}$ 在此量表上，“1”表示正确答案，“0.5”表示部分正确答案或包含无用或混淆信息但内容正确的答案，“0”表示错误答案，“-1”表示危险或不安全的答案。

图1. 根据用户输入查询类型显示样本代理流程。一旦问题被接收，主规划器生成一个计划序列，其中每个节点是一个代理。此处显示了流中每个代理的输出。

4 代理架构

代理架构的魅力在于其能够分解任务（使用规划器）、利用外部系统（工具和其他代理）、感知、记忆组件以及不同的任务行动专家（例如，RAG、重构器等）。我们的实现包括：i) 感知器：感知视觉和语言数据，ii) 规划器：负责分解任务，iii) 执行器：扩展上下文、生成响应并验证安全性。在接收到感知器的输入后，系统的主规划器按顺序调用代理和工具。根据输入（例如，组织/社会或任务），规划器决定调用基于RAG（检索增强生成）的流程还是闲聊模块。详细的系统实现描述可以在附录A中找到。答案规划器随后负责规划是否有足够的信息来回答问题，或者是否需要生成后续问题。安全代理执行最终检查。

代理流中的每个代理都包含自己的LLM。我们实验了3种不同的LLM（Llama3 - 8b [8], Qwen $\mathrm{~b}, 14 \mathrm{~b}[4]$ ）及其基于推理的Deepseek蒸馏替代方案[7]。Deepseek蒸馏推理模型在许多任务中表现出色，同时生成CoT推理[7]。在这项工作中，我们旨在分析这些模型在我们的任务指导应用和独特数据集上的应用，该数据集要求更好的上下文理解和复杂的推理。答案生成的上下文包括冗长的规格文档（详细说明完成过程所需的步骤）、指示、历史聊天数据和支持代理提供的额外数据。用户的问题通常需要推理和/或在大量信息中寻找特定信息[2, 17]。我们工作的目标是评估代理系统生成的响应。

5 实验

我们在离线环境下进行实验以评估代理架构。问题输入到系统中，代理流生成响应。响应随后由专家人工评审员和LLM-as-a-Judge进行审查和评分。由于生成的真实答案很难生成并与系统生成的答案进行比较，我们采用了人工和参考自由的LLM-Judge评估。专家对由代理流使用6种不同LLM生成的每个答案进行评分。评审分数由人工专家和LLM-as-a-Judge分配。为进一步分析生成的思考，我们为思考生成评分（包括人工评审员和LLM-as-a-Judge）。评审员的任务是根据问题、参考响应（以及任务相关问题的规格文档）为答案分配4个评分（见脚注1了解评分标准）。

6 结果

非推理模型表现更好：我们发现生成思考的模型（Deepseek蒸馏模型-7b, 8b, 14b）的评审分数低于未生成或未训练生成思考的模型。我们

元组	内容
A	输入: 倒斗箱连接到了什么？ CoT: 好的，我现在试图弄清楚在这个背景下倒斗箱连接到了什么。从对话历史来看，提到一份详细描述拆解和重新组装玩具的152步流程的指南。用户特别问到倒斗箱连接到了什么。首先，我需要理解倒斗箱通常指的是什么。在机械术语中，倒斗箱通常是电机或传动系统的一部分。它通常是一个保持离合器板或其他需要快速接合或分离的部分的组件。倒斗箱连接到离合器系统，并通过电磁阀接合或释放离合器板，从而使车辆换挡。回顾之前的指南，它涉及拆解各种机械玩具部件，可能类似于机器人或遥控汽车。步骤包括拆卸诸如吊臂、传动系统及其他机械系统的部件。既然用户特别问到倒斗箱，我应该集中在其连接点上。在典型设置中，倒斗箱通过传动系统连接到电机。它也可能链接到齿轮换挡器或玩具的控制机制。在指南的背景下，拆解时需要先断开倒斗箱与离合器和其他部件的连接，然后再进一步拆解。在重新组装过程中，过程会反转，确保倒斗箱正确重新连接并对齐整个系统以确保正常功能。所以，综合起来，在这个背景下，倒斗箱很可能连接到玩具的电机和传动系统。它是换挡和控制玩具机械部件运动的关键组件。输出: 在详细指南中关于拆解和重新组装复杂机械玩具的背景下，“倒斗箱”是传动系统中的一个组件。它连接到电机和离合器系统，允许快速接合或分离离合器板。这种连接确保在操作过程中正确换挡并控制玩具机械部件的移动。“总结” - “倒斗箱功能”: 传动系统的一部分，负责接合/分离离合器板。 - “连接点”: 连接到电机和其他子系统，如换挡器。 “拆解/重新组装”: 需要小心处理，以确保在重新组装时正确连接和功能。
B	输入: 您如何确保数据隐私和安全？ CoT: 好的，我现在试图弄清楚像NARIE这样的AI如何确保数据隐私和安全。我知道，作为一个在Intel Labs开发的帮助代理，它可能设计了一些保护措施。但我并不完全确定具体细节。首先，可能有加密层。这很有道理，因为在发送信息时，尤其是敏感信息，您希望在传输过程中对其进行保护。因此，如果NARIE使用HTTPS或类似的东西，那可能是其中的一部分。然后想到访问控制。只有授权人员应处理数据，因此可能有严格的权限和基于角色的访问。这样，即使有人进入，他们也无法在没有适当许可的情况下访问所有内容。数据匿名化是另一个要点。也许在处理之前删除或模糊个人数据。这样，即使数据被拦截，数据也不可识别。定期审计也可能是流程的一部分，以检查安全措施并确保符合GDPR或CCPA等法规。这有助于保持高标准。此外，必须有安全开发实践。遵循最佳编码实践可以及早发现任何漏洞，从而整体提高系统安全性。我没有最初考虑到物理安全，但如果NARIE部署在物理空间中，保护服务器和数据中心免受未经授权的访问将是至关重要的。最后，持续监控和事件响应计划可以快速捕捉任何漏洞。这种主动方法有助于在出现问题时尽量减少损害并更快恢复。我想知道这些措施是如何在技术上实现的，比如他们使用哪些特定算法或协议进行加密。还有他们如何处理更新和补丁以维持长期的安全性。输出: NARIE通过多层次的方法确保数据隐私和安全：1. “加密”: 使用HTTPS和其他安全通信协议来保护数据在传输过程中的安全。2. “访问控制”: 实施严格的权限和基于角色的访问，限制数据处理仅为授权人员。3. “数据匿名化”: 在处理之前删除或模糊个人信息，使数据即使被拦截也不可识别。4. “定期审计”: 进行合规性检查以遵守GDPR和CCPA等法规，维持标准并确保适当实践。5. “安全开发实践”: 遵循最佳编码实践以及早识别和缓解漏洞，增强整体安全性。6. “物理安全”: 保护服务器和数据中心免受未经授权的访问，确保物理保护。7. “持续监控和事件响应”: 监控漏洞并制定应对计划以快速响应，最大限度减少潜在损害和恢复时间。这些措施通过算法和协议在技术上实现，并通过持续更新和补丁维持长期安全性。
C	输入: 您可以用多种语言与人类交流吗？ CoT: 好的，我现在试图弄清楚像NARIE这样的AI如何确保数据隐私和安全。我知道，作为一个在Intel Labs开发的帮助代理，它可能设计了一些保护措施。但我并不完全确定具体细节。首先，可能有加密层。这很有道理，因为在发送信息时，尤其是敏感信息，您希望在传输过程中对其进行保护。因此，如果NARIE使用HTTPS或类似的东西，那可能是其中的一部分。然后想到访问控制。只有授权人员应处理数据，因此可能有严格的权限和基于角色的访问。这样，即使有人进入，他们也无法在没有适当许可的情况下访问所有内容。数据匿名化是另一个要点。也许在处理之前删除或模糊个人数据。这样，即使数据被拦截，数据也不可识别。定期审计也可能是流程的一部分，以检查安全措施并确保符合GDPR或CCPA等法规。这有助于保持高标准。此外，必须有安全开发实践。遵循最佳编码实践可以及早发现任何漏洞，从而整体提高系统安全性。我没有最初考虑到物理安全，但如果NARIE部署在物理空间中，保护服务器和数据中心免受未经授权的访问将是至关重要的。最后，持续监控和事件响应计划可以快速捕捉任何漏洞。这种主动方法有助于在出现问题时尽量减少损害并更快恢复。我想知道这些措施是如何在技术上实现的，比如他们使用哪些特定算法或协议进行加密。还有他们如何处理更新和补丁以维持长期的安全性。输出: 当前，[代理管道系统] 只能用英语进行交流。

表1. 示例元组。输入来自任务和组织/社会参与式基准数据集，链式思维和输出由代理管道生成。
我们进行Wilcoxon秩和检验并显示差异显著（图2）。LLM-as-a-Judge或否：LLM-as-a-Judge的使用仍然是一个争议领域[12, 34, 42]。在这项工作中，我们发现LLM Judge和人工评审员评分之间表现出弱相关性（Cohen’s Kappa = 0.48（组织/社会），0.28（任务））。我们发现，尽管LLM-as-a-Judge存在局限性，但它可以作为参考自由的方法，用作响应质量的指标。有趣的是，我们发现推理模型答案的评审分数与思考的评审分数之间存在弱相关性。这表明思考不一定引导模型得出正确答案。如果思考与答案高度相关，我们可能会推断答案的“正确性”或“错误性”可以通过思考来解释。

图2. 显示了人类和LLM-as-a-judge对任务和组织/社会问题的答案评分。我们观察到非推理模型的评分优于其推理（Deepseek-）对应模型。我们还可以观察到思考评审分数与答案评审分数之间存在弱相关性。

然而，我们观察到思考无论答案正确与否都有高度的不完整性（评分为0.5的中间列在热图图2中）。我们强调这是一个有趣的未来探索领域。

7 讨论

上述数据显示，CoT可能导致错误答案，阻碍可解释性。为了调查这些影响，我们还对CoT推理进行了定性内容分析（QCA）[16, 22]。QCA可以作为一种“逆向工程”[31]的形式，使分析师能够关注整个产生输出的系统。例如，附录表1中的提示-CoT-输出元组A。鉴于输入，输出无用且错误。它包含了不属于玩具自卸卡车的组件引用（例如，传动系统、离合器），这些在装配说明中未提及。从CoT检查中可以看出，它并未向用户提供为何输出如此无用的解释，但确实显示了CoT推理是如何迅速偏离正轨的。

然而，CoT的QCA确实提供了一些线索，指出是什么可能使其偏离轨道，超越了元组本身更大的元素。对CoT的定性阅读显示文本如何迅速偏离“拆解和重新组装玩具”（由装配说明提供）的参考，转向与倒斗箱更常关联的内容：一台真正的机器。在这里，CoT引入了一系列与机器组件相关的标记，如“离合器”、“传动”或“齿轮”，尽管它继续提到“玩具”，但名词和动词与实际机器密切相关。综合起来，QCA生成的一个假设指向了LLMs易受“Einstellung范式”[23]的影响，即专注于熟悉或常见方法导致远离正确方法的趋势。在这里，CoT专注于与自卸卡车（机器相关）在LLM中更常关联的标记，而不是与任务相关的标记（玩具相关并由RAG提供）。另一个由QCA生成的可能假设是RAG代理似乎在填充上下文窗口时遇到了问题，因此依赖于基础模型，返回了关于自卸卡车作为复杂机械的通用文本。至关重要的是，尽管QCA为我们提供了可能有帮助的故障排除方向，但对CoT的详细分析并未导致可解释性。实际上，需要相当大的努力来理解输入和输出，即使CoT生成了更多材料供参与此类理解。附录表1中的元组B也显示出对Einstellung范式的易感性。
另一种CoT妨碍可解释性的方式见于附录表1中的元组C。输入是一个来自组织/社会问题的问题：“您能否用多种语言与人类交流？”这个问题反映了用户可能希望知道如何最好地与系统沟通的需求。输出表明它不能，这是不正确的，尽管用非英语语言测试提示返回了合法的结果。 ${ }^{2}$ 在这里，CoT文本以三种重要方式实质性地妨碍了可解释性：1) 将某些事实视为不真实，尽管没有任何提供背景的提示声明这一点，尽管所有提示都是英文的。2) 基于此主张做出有缺陷的推论：“由于上下文中只列出英文……现在只是英文”，体现了被称为仓促概括的逻辑谬误[37]。3) CoT产生了比得出其（错误）结论所需的更多文本，引入了难以解析的文本，用户需要费力查找有用的解释，同时强化了逻辑错误。这些都通过引入无关文本或错误论证形式干扰了可解释性，增加了寻求CoT中解释内容的负担。

局限性和未来工作：我们的工作存在几个局限性。我们假设代理架构是开发系统的首选选择，而实际上存在许多其他开发系统的方式。我们旨在比较和评估开发任务指导系统的替代方法，并通过消融评估系统中每个代理的价值。我们出于便于比较的目的在每个代理中部署相同的LLM。我们承认不同的LLM可以作为不同的任务专家。我们的数据集虽然是参与式的，但在规模上有限。这项工作的目的是仔细评估每个模型的每个响应。在未来的工作中，我们旨在通过扩大分析范围来解决这个问题。

参考文献

[1] Alireza Amiri, Xinting Huang, Mark Rofin, and Michael Hahn. 2025. Hard-Attention Transformers的链式思维推理下限。arXiv预印本 arXiv:2502.02393 (2025).
[2] Anthropic. 2023. Claude 2.1的长上下文提示。https://www.anthropic.com/news/claude-2-1-prompting Accessed: 2025-02-26.
[3] Alejandro Barredo Arrieta, Natalia Diaz-Rodriguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, Raja Chatila, 和 Francisco Herrera. 2019. 可解释人工智能（XAI）：概念、分类、机会和挑战通向负责任的人工智能之路。doi:10.48550/arXiv.1910.10045 arXiv:1910.10045 [cs].
[4] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Junxin Ma, Rui Men, Xingshang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, 和 Tianhang Zhu. 2023. Qwen技术报告。arXiv预印本 arXiv:2309.16609 (2023).
[5] Agathe Balayn, Lorenzo Corti, Fanny Rancourt, Fabio Casati, 和 Ujwal Gadiraju. 2024. 理解LLM供应链中利益相关者的认知和需求。arXiv:2405.16311 [cs.HC] https://arxiv.org/abs/2405.16311
[6] Alan Chan, Rebecca Salganik, Alva Markelius, Chris Pang, Nitarshan Rajkumar, Dmitrii Krasheninnikov, Lauro Langosco, Zhonghao He, Yawen Duan, Micah Carroll, 等. 2023. 越来越具代理性的算法系统的危害。2023 ACM公平性、问责制和透明度会议论文集。651-666.
[7] DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qiuyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyun Zhou, Shanthuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang

${ }^{2}$ 输入" Wo wohnen sie?" (“你住在哪里？”) 返回一个输出，表明作为AI，我们的任务导向指导系统不能被认为有一个传统的居住地。有趣的是，该提示的CoT是以英语输出的。
Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yaong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yushuan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, 和 Zhen Zhang. 2025. DeepSeek-R1: 通过强化学习激励LLMs的推理能力。arXiv:2501.12948 [cs.CL] https://arxiv.org/abs/2501.12948
[8] Abhimanyu Dubey, Abhinav Jaubri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, 等. 2024. Llama 3系列模型群。arXiv预印本 arXiv:2407.21783 (2024).
[9] Upol Ehsan, Pradyumna Tambwekar, Larry Chan, Brent Harrison, 和 Mark O Riedl. 2019. 自动理由生成：一种可解释AI技术及其对人类认知的影响。第24届国际智能用户界面会议论文集。263-274.
[10] Upol Ehsan, Philipp Wintersberger, Q. Vera Liao, Elizabeth Anne Watkins, Carina Manger, Hal Daumé III, Andreas Riener, 和 Mark O Riedl. 2022. 以人为中心的可解释人工智能（HCXAI）：超越打开AI黑盒。CHI人机交互会议扩展摘要。ACM, 新奥尔良LA美国, 1-7. doi:10.1145/3491101.3503727
[11] Andrea Ferrario, Alberto Termine, 和 Alessandro Facchini. 2024. 解决大型语言模型的社会错归因问题：基于HCXAI的方法。arXiv:2403.17873 [cs.AI] https://arxiv.org/abs/2403.17873
[12] Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, 等. 2024. 关于LLM-as-a-Judge的综述。arXiv预印本 arXiv:2411.15594 (2024).
[13] Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, 和 Wenfeng Liang. 2024. DeepSeek-Coder：当大型语言模型遇到编程——代码智能的崛起。doi:10.48550/arXiv. 2401.14196 arXiv:2401.14196 [cs].
[14] Alexey Ignatiev, Nina Narodytska, 和 Joao Marques-Silva. 2019. 机器学习模型的溯因解释。AAAI人工智能会议论文集 33, 01 (2019年7月), 1511-1519. doi:10.1609/aaai.v3301.33011511
[15] Sunnie SY Kim, Elizabeth Anne Watkins, Olga Russakovsky, Ruth Fong, 和 Andrés Monroy-Hernández. 2023. “帮助我帮助AI”：理解可解释性如何支持人机交互。2023 CHI人机交互会议论文集。1-17.
[16] Siegfried Kracauer. 2025. 定性内容分析的挑战。(2025).
[17] Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Igorevich Sorokin, Artyom Sorokin, 和 Mikhail Burtsev. [日期不明]. Babilong：用长上下文推理测试LLMs的极限。第三十八届神经信息处理系统大会数据集和基准赛道。
[18] Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, 和 Jun Zhao. 2024. 朝着忠实的链式思维：大型语言模型作为桥梁推理者。arXiv预印本 arXiv:2405.18915 (2024).
[19] Ramesh Manuvinakurike, Elizabeth Watkins, Celal Savur, Anthony Rhodes, Sovan Biswas, Gesem Gudino Mejia, Richard Beckwith, Saurav Sahay, Giuseppe Raffa, 和 Lama Nachman. 2024. QA-TOOLBOX：制造中的过程任务指导对话问答。arXiv预印本 arXiv:2412.02638 (2024).
[20] Margaret Mitchell, Avijit Ghosh, Alexandra Sasha Luccioni, 和 Giada Pistilli. 2025. 不应开发完全自主的人工智能代理。arXiv预印本 arXiv:2502.02649 (2025).
[21] Raymond J. Mooney. 2000. 在机器学习中整合溯因和归纳推理。《溯因与归纳》, Dov M. Gabbay, John Barwise, Peter A. Flach, 和 Antonis C. Kakas 编辑。卷18。荷兰Dordrecht, Springer Netherlands, 181-191页。doi:10.1007/978-94-017-0606-3_12 系列标题：应用逻辑系列。
[22] Franco Moretti. 2000. 对世界文学的猜想。New Left Review 2, 1 (2000), 54-68.
[23] Saeid Alavi Naeini, Raeid Saqur, Mozhgan Saeidi, John Giorgi, 和 Babak Tauti. 2023. 大型语言模型被红鲱鱼吸引：使用Only Connect Wall数据集探索创造性问题解决和Einstellung效应。文章246 (2023), 22页。doi:10.5555/3666122.3666368
[24] Farhad Nooralahzadeh, Yi Zhang, Jonathan Furst, 和 Kurt Stockinger. 2024. 通过LLM代理实现自然语言中的可解释多模态数据探索。doi:10.48550/arXiv.2412.18428 arXiv:2412.18428 [cs].
[25] Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, 和 Augustus Odena. 2021. 展示你的工作：语言模型中间计算的草稿纸。doi:10.48550/arXiv. 2112.00114------
arXiv:2112.00114 [cs].
[26] OpenAI. 2022. 推出ChatGPT。https://openai.com/index/chatgpt/
[27] OpenAI.
2024. GPT-6s模型。https://openai.com. 访问日期：2025-02-26.
2025. [28] Manish Sanwal. 2025. 多代理LLM系统的分层链式思维提示：一种全面
2026. ------的大型语言模型可解释性方法。doi:10.48550/arXiv.2501.18645 arXiv:2501.18645 [cs].
2027. [29] Advait Sarkar. 2024. 大型语言模型无法自我解释。arXiv:2405.04382 [cs.HC] https://arxiv.org/abs/2405.04382
2028. [30] Fadime Sener, Dibyadip Chatterjee, Daniel Shelepov, Kun He, Dipika Singbania, Robert Wang, 和 Angela Yao. 2022. Assembly101：一个用于理解程序化活动的大规模多视角视频数据集。IEEE/CVF计算机视觉与模式识别会议论文集。21096-21106.
2029. [31] Barbara Herrnstein Smith. 2016. “细读”是什么？明尼苏达评论 2016, 87 (2016年11月), 57-75. doi:10.1215/00265667-3630844
2030. [32] Alison Smith-Renner, Ron Fan, Melissa Birchfield, Tongshuang Wu, Jordan Boyd-Graber, Daniel S. Weld, 和 Leah Findlater. 2020. 没有问责就没有可解释性：交互式机器学习中解释和反馈的实证研究。2020 CHI人机交互会议论文集。ACM, 火奴鲁鲁HI美国, 1-13. doi:10.1145/3313831.3376624
2031. [33] Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, 和 Jason Wei. 2022. BIG-Bench任务的挑战及链式思维是否能解决它们。doi:10.48550/arXiv.2210.09261 arXiv:2210.09261 [cs].
2032. [34] Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, 和 Ion Stoica. 2024. Judgebench：评估基于LLM的法官的基准。arXiv预印本 arXiv:2410.12784 (2024).
2033. [35] Sree Harsha Tanneru, Dan Ley, Chirag Agarwal, 和 Himabindu Lakkaraju. 2024. 大型语言模型中忠实链式思维推理的困难。在可信多模态基础模型和AI代理（TiFA）中。
2034. [36] Miles Turpin, Julian Michael, Ethan Perez, 和 Samuel R Bowman. 2023. 语言模型并不总是说其所想：链式思维提示中的不忠实解释。(2023).
2035. [37] Douglas Walton. 1999. 重新思考仓促概括谬误。论证 13, 五月 (1999), 161-182. doi:10.1023/A:1026497207240
2036. [38] Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, 和 Jirong Wen. 2024. 基于大型语言模型的自主代理综述。计算机科学前沿 18, 6 (2024年12月), 186345. doi:10.1007/s11704-024-40231-1
2037. [39] Jason Wei, Xueshi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, 和 Denny Zhou. 2023. 链式思维提示法激发大型语言模型中的推理。doi:10.48550/arXiv.2201.11903 arXiv:2201.11903 [cs].
2038. [40] Xuansheng Wu, Haiyan Zhao, Yaochen Zhu, Yucheng Shi, Fan Yang, Tianming Liu, Xiaoming Zhai, Wenlin Yao, Jundong Li, Mengnan Du, 等. 2024. 可用的XAI：在LLM时代利用可解释性的10种策略。arXiv预印本 arXiv:2403.08946 (2024).
2039. [41] Eric Zelikman, Yuhuai Wu, Jesse Mu, 和 Noah D Goodman. [日期不明]. STaR：自教推理器。([日期不明]).
2040. [42] Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, 等. 2023. 使用MT-Bench和Chatbot Arena评估LLM-as-a-Judge。神经信息处理系统进展 36 (2023), 46595-46623.
2041. [43] Alexandra Zytek, Sara Pidò, 和 Kalyan Veeramachaneni. 2024. LLMs用于XAI：解释解释的未来方向。arXiv:2405.06064 [cs.AI] https://arxiv.org/abs/2405.06064

A 代理实现细节

无需思考的思考：通过代理管道重新审视链式思维推理在LLMs中的解释价值

代理	功能	输入
主规划器	固定的主组件，负责创建一个流程图，其中每个节点是一个代理。	代理定义、输入（问题）和任务描述
查询规划器	评估查询并决定查询是否需要重构以及使用哪个数据库进行检索增强生成	任务描述、原始查询、附加文本上下文（尾随代理的输出）
答案规划器	决定上下文中是否有足够的信息来回答问题。如果有，则调用答案规划器生成答案；否则，生成一个问题生成器。	任务描述、上下文（尾随代理的输出）、查询
意图检测	检测提问的意图（由领域专家定义）。这尤其对RAG模块或其他后续模块有用。	任务描述、意图候选、原始查询
视觉动作识别	识别视觉帧中执行的动作	视觉帧
对象检测	识别视觉帧中的对象	视觉帧
闲聊	对于非任务相关查询，系统根据指南提示中定义的一组策略规则回答查询	任务描述、政策文档、查询
问答者	利用增强的上下文回答任务相关查询	任务描述、查询、上下文
问题生成器	通常利用查询和上下文生成请求缺失信息的问题	任务描述、查询、上下文
重构器	将原始查询转换为同义查询，利用额外的上下文参数（通常是对象和动作）	任务描述、查询、视觉上下文
RAG	利用查询检索文档并总结文档以提供上下文	任务描述、查询、向量数据库
安全代理	利用政策文档区分安全响应与不适当响应	政策文档、响应（问题或答案）

表2. 描述了各代理、功能及其输入。

任务示例	组织/社会示例
什么是牛栏？	你叫什么名字，型号是多少？
总共有多少件？	你能告诉我更多关于你的能力和限制吗？
我要拧螺丝往哪个方向转才能拆下来？	你能否用多种语言与人类交流？
挡风玻璃在哪里？	你能以多快的速度处理信息？
倒斗箱哪一面朝外？	你如何确保自己的维护和自我保护？
格栅杆应该处于什么位置？	你能否像人类一样轻松理解和处理人类语言？
螺母应该拧得多紧？	你如何确保我的数据隐私和安全？
正确的拆卸螺母的方法是什么？	你如何确保不会误解我的请求或需求？

表3. 来自我们数据集中的一些例子，系统在此基础上进行了评估。

图3. 图中显示了我们的感知任务指导系统的代理实现。代理分为感知器、规划器和行动代理。这些代理是自主的，并依赖于LLMs或其他替代深度学习模型来完成其任务。代理管道包括固定流和动态流。动态流涉及规划器调用的组件。规划器生成的计划被转换为代理调用（路由器）。

图4. 显示了代理流中更多的动态流示例。示例显示了用户在感知器中的输入问题。主规划器创建计划并创建包含代理调用的路由。RAG包含每个玩具的规格文档，进一步分块。RAG模块将输入上下文转换为数据库查询。检索到的文档连同输入一起传递给后续代理。响应生成模块包含规划器，以决定上下文是否足以回答问题。然后，答案规划器调用专家问题生成器或答案生成器。响应在发布给用户之前始终经过验证。

参考论文：https://arxiv.org/pdf/2505.00875

元组	内容
A	输入: 倒斗箱连接到了什么？ CoT: 好的，我现在试图弄清楚在这个背景下倒斗箱连接到了什么。从对话历史来看，提到一份详细描述拆解和重新组装玩具的152步流程的指南。用户特别问到倒斗箱连接到了什么。首先，我需要理解倒斗箱通常指的是什么。在机械术语中，倒斗箱通常是电机或传动系统的一部分。它通常是一个保持离合器板或其他需要快速接合或分离的部分的组件。倒斗箱连接到离合器系统，并通过电磁阀接合或释放离合器板，从而使车辆换挡。回顾之前的指南，它涉及拆解各种机械玩具部件，可能类似于机器人或遥控汽车。步骤包括拆卸诸如吊臂、传动系统及其他机械系统的部件。既然用户特别问到倒斗箱，我应该集中在其连接点上。在典型设置中，倒斗箱通过传动系统连接到电机。它也可能链接到齿轮换挡器或玩具的控制机制。在指南的背景下，拆解时需要先断开倒斗箱与离合器和其他部件的连接，然后再进一步拆解。在重新组装过程中，过程会反转，确保倒斗箱正确重新连接并对齐整个系统以确保正常功能。所以，综合起来，在这个背景下，倒斗箱很可能连接到玩具的电机和传动系统。它是换挡和控制玩具机械部件运动的关键组件。输出: 在详细指南中关于拆解和重新组装复杂机械玩具的背景下，“倒斗箱”是传动系统中的一个组件。它连接到电机和离合器系统，允许快速接合或分离离合器板。这种连接确保在操作过程中正确换挡并控制玩具机械部件的移动。“总结” - “倒斗箱功能”: 传动系统的一部分，负责接合/分离离合器板。 - “连接点”: 连接到电机和其他子系统，如换挡器。 “拆解/重新组装”: 需要小心处理，以确保在重新组装时正确连接和功能。
B	输入: 您如何确保数据隐私和安全？ CoT: 好的，我现在试图弄清楚像NARIE这样的AI如何确保数据隐私和安全。我知道，作为一个在Intel Labs开发的帮助代理，它可能设计了一些保护措施。但我并不完全确定具体细节。首先，可能有加密层。这很有道理，因为在发送信息时，尤其是敏感信息，您希望在传输过程中对其进行保护。因此，如果NARIE使用HTTPS或类似的东西，那可能是其中的一部分。然后想到访问控制。只有授权人员应处理数据，因此可能有严格的权限和基于角色的访问。这样，即使有人进入，他们也无法在没有适当许可的情况下访问所有内容。数据匿名化是另一个要点。也许在处理之前删除或模糊个人数据。这样，即使数据被拦截，数据也不可识别。定期审计也可能是流程的一部分，以检查安全措施并确保符合GDPR或CCPA等法规。这有助于保持高标准。此外，必须有安全开发实践。遵循最佳编码实践可以及早发现任何漏洞，从而整体提高系统安全性。我没有最初考虑到物理安全，但如果NARIE部署在物理空间中，保护服务器和数据中心免受未经授权的访问将是至关重要的。最后，持续监控和事件响应计划可以快速捕捉任何漏洞。这种主动方法有助于在出现问题时尽量减少损害并更快恢复。我想知道这些措施是如何在技术上实现的，比如他们使用哪些特定算法或协议进行加密。还有他们如何处理更新和补丁以维持长期的安全性。输出: NARIE通过多层次的方法确保数据隐私和安全：1. “加密”: 使用HTTPS和其他安全通信协议来保护数据在传输过程中的安全。2. “访问控制”: 实施严格的权限和基于角色的访问，限制数据处理仅为授权人员。3. “数据匿名化”: 在处理之前删除或模糊个人信息，使数据即使被拦截也不可识别。4. “定期审计”: 进行合规性检查以遵守GDPR和CCPA等法规，维持标准并确保适当实践。5. “安全开发实践”: 遵循最佳编码实践以及早识别和缓解漏洞，增强整体安全性。6. “物理安全”: 保护服务器和数据中心免受未经授权的访问，确保物理保护。7. “持续监控和事件响应”: 监控漏洞并制定应对计划以快速响应，最大限度减少潜在损害和恢复时间。这些措施通过算法和协议在技术上实现，并通过持续更新和补丁维持长期安全性。
C	输入: 您可以用多种语言与人类交流吗？ CoT: 好的，我现在试图弄清楚像NARIE这样的AI如何确保数据隐私和安全。我知道，作为一个在Intel Labs开发的帮助代理，它可能设计了一些保护措施。但我并不完全确定具体细节。首先，可能有加密层。这很有道理，因为在发送信息时，尤其是敏感信息，您希望在传输过程中对其进行保护。因此，如果NARIE使用HTTPS或类似的东西，那可能是其中的一部分。然后想到访问控制。只有授权人员应处理数据，因此可能有严格的权限和基于角色的访问。这样，即使有人进入，他们也无法在没有适当许可的情况下访问所有内容。数据匿名化是另一个要点。也许在处理之前删除或模糊个人数据。这样，即使数据被拦截，数据也不可识别。定期审计也可能是流程的一部分，以检查安全措施并确保符合GDPR或CCPA等法规。这有助于保持高标准。此外，必须有安全开发实践。遵循最佳编码实践可以及早发现任何漏洞，从而整体提高系统安全性。我没有最初考虑到物理安全，但如果NARIE部署在物理空间中，保护服务器和数据中心免受未经授权的访问将是至关重要的。最后，持续监控和事件响应计划可以快速捕捉任何漏洞。这种主动方法有助于在出现问题时尽量减少损害并更快恢复。我想知道这些措施是如何在技术上实现的，比如他们使用哪些特定算法或协议进行加密。还有他们如何处理更新和补丁以维持长期的安全性。输出: 当前，[代理管道系统] 只能用英语进行交流。