答案与推理错配 - 评估LLM CoT鲁棒性的框架

最新推荐文章于 2025-06-04 20:42:13 发布

Paper易论

最新推荐文章于 2025-06-04 20:42:13 发布

阅读量983

点赞数 10

文章标签：人工智能算法大数据

本文链接：https://blog.csdn.net/u013524655/article/details/148242120

版权

江恩义，徐昌明，尼施·辛格，加甘德普·辛格
伊利诺伊大学厄巴纳-香槟分校
{enyij2,cx23,nischay2,ggnds}@illinois.edu

摘要

大型语言模型（LLMs）的决策过程是不透明的，这促使了对诸如链式思维（Chain-of-Thought）等解释技术的需求。为了研究答案与推理之间的关系，我们设计了一个新颖的评估框架，称为MATCHA。在教育和医疗等领域，推理对于模型的信任至关重要。MATCHA揭示了在输入扰动下，LLMs可能会给出不一致或无意义的推理。此外，我们使用LLM法官来评估不同模型的推理鲁棒性。我们的结果表明，与逻辑任务相比，LLMs在多步推理和常识任务中对输入扰动表现出更大的脆弱性。同时，我们展示了成功示例向黑盒模型的非平凡转移率。我们的评估框架有助于更好地理解LLM推理机制，并引导未来的模型朝着更鲁棒、以推理驱动的架构发展，强化答案与推理的一致性。

1 引言

像GPT [1]，Llama [12]，DeepSeek [20]这样的大型语言模型（LLMs）已经通过链式思维（CoT）提示等技术在复杂推理任务中展现出卓越的能力[52, 53, 56]。通过将问题分解为中间推理步骤，CoT使LLMs能够解决数学证明[50]，符号操作[55]和多步推理[49]等问题，而这些问题通常无法通过标准提示来解决。
尽管链式思维（CoT）提示被广泛采用，大型语言模型（LLMs）在各种领域中迅速集成[22, 14]，但CoT推理背后的机制仍然知之甚少[48]。尽管存在这一理解差距，LLM CoT已经在实际场景中用于提供解释。例如，学生经常收到答案钥匙，但可以依赖LLMs来解释如何得出这些答案[19]。此外，医疗患者可以依靠LLM解释来理解他们的诊断[2]。向学生提供错误解释会加深他们的误解，而在诊断上接收到错误信息会降低对医学的信任[18]。这就引发了一个关键问题：我们能否信任CoT推理的鲁棒性？如上述例子所示，当推理变得脆弱时，它可能与答案矛盾、模糊方法，甚至完全误导。对输入的小改动如果对问题影响很小，则应对推理的影响也应微乎其微；然而，正如本文所展示的，事实往往并非如此。在高风险环境中，仅正确的答案是不够的，稳定且准确的推理也是构建可用现实系统的关键要素。
在本文中，我们展示了LLM CoT的脆弱性，如图1所示，其中一个问题扰动导致错误推理但正确答案（DeepSeek-R1-7在GSM8K上的表现）。我们采用先答案后推理的框架，以在保持答案固定的同时隔离推理中的失败。这种设置不仅暴露了特定于推理的漏洞，还反映了现实世界情景，在这些情景中，LLM推理通常是事后生成的，以证明已决定输出的合理性[26, 56]。为此，我们介绍了MATCHA，一种新颖的算法，用于找到导致CoT推理行为不一致的小输入变化。我们使用MATCHA创建指标来评估

图1：输入问题中的扰动可以使推理错误，同时保留正确答案，表明答案与推理对齐存在潜在问题。示例使用了应用于DeepSeek-R1-7B在GSM8k上的标记级MATCHA。

LLM在不同模型上的CoT。MATCHA可以实例化为标记级或嵌入级扰动。我们的主要关注点是标记级扰动，因为它们更现实，但是由于需要引入最小的、语义上合理的编辑，选择性地破坏推理而不改变答案正确性，因此创建起来具有挑战性。为了实现这一点，我们首先将随机标记插入原始问题中。然后，我们识别出对推理过程影响最大的插入标记，同时确保与答案相关的标记保持不变。通过利用基于梯度的重要性排名，我们有选择地替换那些最大化推理扰动同时最小化对原始问题更改的标记。作为嵌入级扰动的MATCHA，它在输入问题的嵌入空间中进行不易察觉的扰动，确保标记序列保持不变，同时破坏推理过程。通过优化一个最大化推理差异同时保留正确答案的损失函数，扰动微妙地改变了内部表示，导致错误推理而不改变最终答案。我们的代码可以在https://github.com/uiuc-focal-lab/MATCHA获取。

主要贡献：

我们是第一个系统地研究答案与推理错配的人。我们介绍了一种新颖的评估框架MATCHA（错配的答案和思维链），它在标记级和嵌入级均有效。
- 我们提出了一种自动化的鲁棒性评估框架，包括新的评估指标和基于LLM的评估系统。我们的结果显示，MATCHA显著降低了最先进的模型的CoT鲁棒性，表明CoTs是脆弱的，并且LLMs的推理与答案之间存在错配。另外，我们显示LLMs在多步和常识推理场景中更容易受到扰动的影响。
- 我们研究了标记级对抗示例向黑盒LLMs（GPTs）的可转移性，揭示了非平凡的转移率，强调了增强LLM推理鲁棒性和推理-答案一致性的重要需求。

2 相关工作

基于提示的推理。链式思维最初由[52]引入，显示诱导中间推理步骤显著提高了LLMs的推理能力，这被广泛认为是NLEs的一种重要形式。许多工作进一步扩展了链式思维（CoT）使用自一致性提示和主动提示方法[51, 29, 10]。此外，[58]提出了树形思维，使模型能够探索多种推理路径以解决复杂问题，而[3]引入了图形思维，将LLM的思考结构化为图节点以增强推理能力。我们专注于CoT，因其广泛采用和相对简单，同时注意到我们的框架和方法适用于其他推理方法。
解释的敏感性和稳定性。在视觉领域，[11, 24]表明模型容易被带有正确预测的错误解释愚弄。在语言领域，为了有效评估LLM解释的稳定性[42]和忠实性[38, 8, 33]以及
许多关于量化不确定性、反事实模拟性和解释可靠性的研究[43; 7; 59]。与他们的工作相比，MATCHA是第一个测量CoTs对标记级和嵌入级扰动敏感性的评估框架，为我们提供了对不同模型推理机制和鲁棒性的新视角。

对抗攻击。针对机器学习的对抗攻击已被广泛研究，传统应用领域如视觉[37; 16; 5]。最近的研究表明LLMs也容易受到此类攻击。在LLM领域，基于梯度的攻击如[64; 63; 27; 36]显示精心设计的文本前缀/后缀可以让用户轻松绕过LLM的安全对齐训练。[46]显示通过让模型以接受短语开始很容易绕过对齐。对于嵌入攻击，[41]揭示了微妙的嵌入空间操作可以绕过安全对齐并恢复未学到的行为，而[54]显示此类连续攻击显著挑战对齐并需要专门的防御。对于其他鲁棒性定义，[61]探讨了增强对噪声理由的弹性技术，[56]设计了使用预先答案的CoT攻击但未评估真实推理，[23]利用CoT改进了困难问题的鲁棒性。MATCHA与这些方法正交，因为它专注于使用新颖的标记和嵌入级扰动检查推理与答案之间的一致性。

LLM评估。现有的研究评估LLM在准确性、鲁棒性和与人类价值观的对齐方面的表现。基准如GLUE和SuperGLUE [47; 40]评估任务性能，而HELM [35]提供了对安全性、公平性和效率的整体评估。Quacer-B [6]引入了检测LLM偏见的认证框架。另一方面，LLM-as-a-judge被广泛使用 [62; 60; 34; 25] 来评估聊天框和LLM的不同能力。MATCHA可以与这些工作并行使用，因为它专注于使用LLM作为法官评估LLM推理的鲁棒性这一新颖任务。

3 背景

为了正式介绍MATCHA，我们首先涵盖了对抗攻击和上下文学习。

对抗攻击。对抗样本是一类对神经网络的鲁棒性攻击[17; 32]。在图像分类中，我们考虑从经验分布 $\mathcal{D}$ 中的样本 ${(x_{i},y_{i})\}_{i=0}^{N}$ ，其中每个图像 $\in \mathbb{R}^{d}$ 有一个对应的标签 $\in \mathbb{R}^{k}$ 。一个参数化为 $\theta$ 的分类器 $f$ 被训练以最小化损失函数 $\mathcal{L}: \mathbb{R}^{k} \times \mathbb{R}^{k} \rightarrow \mathbb{R}$ 。对抗攻击寻找在 $x$ 周围的预定义对抗区域内的一点 $x^{\prime}$ ，即 $B_{p}\left(x, \epsilon_{p}\right)=\left\{x^{\prime} \in \mathbb{R}^{d}:\left\|x^{\prime}-x\right\|_{p} \leq \epsilon_{p}\right\}$ ，使得 $f$ 的分类发生变化 $\left(f\left(x^{\prime}\right) \neq f(x)=y\right) . x^{\prime}$ 和 $x$ 应该在语义上相同，即一个人类应该判定它们属于同一类别。一个简单的对抗攻击由[17]引入，线性化损失函数以计算在遵守对抗约束的同时最大化损失的扰动，需要多次反向传播步骤：

$x^{\prime}=x+\epsilon \cdot \operatorname{sign}\left(\nabla_{x} \mathcal{L}(f(x), y)\right)$

然而，基于梯度的攻击并不直接适用于文本数据，因为1）文本数据空间 $x$ 是离散而不是连续的，2）文本数据的对抗区域很难定义。在这项工作中，我们定义了两种扰动，基于我们针对损失函数的目标函数使用梯度信息优化文本对抗示例：a）标记级攻击：随机标记插入和基于标记梯度的梯度导向替换，b）嵌入级攻击：对问题输入的嵌入空间进行不可感知的 $l_{\infty}$ 扰动。

带CoTs的上下文学习（ICL）。我们的评估框架首先使用一组带有手工制作CoT的标记实例来提示LLMs。在ICL中，给定一个未标记的问题 $x_{p} \in \mathcal{X}$ 和训练示例 $\left(x_{i}, y_{i}, r_{i}\right)_{i=1}^{L}$ ，其中 $x_{i} \in \mathcal{X}$ 是一个问题， $y_{i} \in \mathcal{Y}$ 是其答案， $r_{i} \in \mathcal{R}$ 是相应的CoT，我们使用参数化为 $\theta$ 的模型 $f$ 生成未标记问题 $x_{p}$ 最可能的答案和CoT：

$\underset{\left(y_{p}, r_{p}\right) \in \mathcal{R} \times \mathcal{Y}}{\operatorname{argmax}} P_{\theta}\left(\left(y_{p}, r_{p}\right) \mid\left(x_{i}, y_{i}, r_{i}\right)_{i=1}^{k},\left(x_{p}\right)\right)$

我们的目标是从LLM生成最可能的答案 $y_{p}$ 和CoT $r_{p}$ 。我们将 $y_{p}$ 定义为预先答案，这意味着我们先生成答案再生成推理，这在现实世界中构成重大威胁[56]。当模型首先产生答案时，我们锁定输出，确保推理步骤不会影响答案。这使我们可以明确控制推理是否与固定的正确答案一致（或为了扰动目的故意偏离）。相比之下，推理优先的方法将推理与回答交织在一起，使得控制其中一个而不影响另一个更加困难——我们注意到如果先生成推理，那么错误的推理很可能会严重影响答案出错。

4 MATCHA: 错误答案与思维链

在本节中，我们介绍了一种新颖的评估框架MATCHA，该框架构建了在保持最终答案的同时选择性降级CoT质量的扰动。与直接针对模型预测的传统扰动不同，我们的目标更为细致：揭露正确答案与错误推理之间的差异，从而揭示推理过程中的隐藏故障模式。实现这一目标需要精心设计的优化策略。具体来说，我们提出了两种互补的方法：标记级扰动，它在离散级别操纵输入，以及嵌入级扰动，它直接在连续表示空间中操作。每种方法都面临其自身的挑战，并揭示了模型的不同脆弱性方面。

4.1 生成正确答案错误推理的响应

设计扰动的一个关键标准是定义其目标，特别是选择优化扰动以确保LLM生成正确答案但生成错误推理的损失函数。高层次的直觉是通过优化使CoT不同但保持相同的答案。为了实现这一点，我们为扰动制定了新的损失函数。我们使用下面的例子说明基本损失实例化：

ICL $\left(n_{1}\right)$ : 一列 $(\mathrm{Q}, \mathrm{CoT}, \mathrm{A})$ 。
$\mathbf{Q}\left(n_{2}\right)$ : 如果停车场里有3辆车，又来了2辆车，停车场里有多少辆车？
$\mathbf{A}\left(n_{3}\right)$ : 答案是5。
$\mathbf{C o T}\left(n_{4}\right)$ : 让我们一步一步地思考。一开始有3辆车。又来了2辆车。 $3 + 2 = 5$ 。

上下文示例的起始位置、当前问题、当前答案和当前解释分别表示为 $n_{1}, n_{2}, n_{3}, n_{4}$ 。此外，我们将LLM定义为一个函数 $f$ ，它将一系列标记 $x_{1: n}$ 映射到输出logit分布 $f\left(x_{1: n}\right)$ ，其中标记 $x_{i}$ 属于大小为 $V$ 的词汇表。在接下来的部分中，我们使用logit分布来帮助设计 $\mathcal{L}_{c}$ 和 $\mathcal{L}_{a}$ 的损失项，分别对应于CoT和答案部分的损失。给定一对原始（参考）响应 $x$ 和扰动响应 $x^{\prime}$ ，我们有 $q_{c}, q_{c}^{\prime}$ 作为 $x_{n_{3}: n_{4}}$ （直到CoT部分）的logits， $q_{a}, q_{a}^{\prime}$ 作为 $x_{1: n_{3}}$ （直到答案部分）的logits（见公式1）。如果logits是通过嵌入空间计算的，那么 $x$ 是嵌入而不是标记集。然后， $\mathcal{L}_{c}$ 和 $\mathcal{L}_{a}$ 被定义为相对于参考分布的扰动分布的交叉熵。

$\begin{gathered} q_{c}, q_{c}^{\prime} \leftarrow f\left(x_{n_{3}: n_{4}}\right), f\left(x_{n_{3}: n_{4}}^{\prime}\right) ; q_{a}, q_{a}^{\prime} \leftarrow f\left(x_{1: n_{3}}\right), f\left(x_{1: n_{3}}^{\prime}\right) \\ \mathcal{L}_{c}=\mathcal{L}_{C E}\left(q_{c}^{\prime}, q_{c}\right), \mathcal{L}_{a}=\mathcal{L}_{C E}\left(q_{a}^{\prime}, q_{a}\right) \end{gathered}$

优化目标仔细平衡两个竞争目标：改变推理同时保持答案不变。为了实现这一点，我们结合两个损失项，通过系数 $\lambda=\frac{n_{4}-n_{3}}{n_{4}}$ 缩放它们，以给予每个标记均匀的重要性。 $\mathcal{L}_{\text {opt }}$ 鼓励模型最大化 $\mathcal{L}_{c}$ ，推动CoT发散，同时最小化 $\mathcal{L}_{a}$ ，确保最终答案保持不变；因此，精确针对模型的推理而非答案。

$\mathcal{L}_{o p t}=\mathcal{L}_{c}-\lambda \cdot \mathcal{L}_{a}$

4.2 标记级扰动

我们设计了标记级扰动策略，以在维持受控编辑输入的同时最大化MATCHA的成功率。为了避免直接替换现有标记的风险，这可能导致扭曲原始问题并降低答案准确性，我们采用了两阶段的标记插入和替换方法。这允许我们在不过度覆盖语义关键内容的情况下注入扰动，保持模型生成正确答案的能力。然后，我们通过梯度引导的替换来细化这些插入的标记，识别哪些修改
最有效地干扰推理，同时保持答案稳定。与现有的方法如GCG相比，我们的方法更具针对性和有效性，产生更低的不可攻击率和更高的成功率（见表3）。这种设计反映了一个核心见解：扰乱推理不需要语义崩溃，只需要精确、最小的变化，就能引导模型的内部轨迹偏离轨道。

第一阶段：随机标记插入。我们通过在原始问题的随机选定位置插入一组随机选择的标记来发起攻击，有效地模拟对输入的扰动，我们用"_"在示例4.2中标记。这些随机标记是初始干扰，微妙地改变原始问题，同时保留其结构和意图。插入旨在创建对问题的最少修改版本，以暴露模型推理或决策过程中的漏洞。我们将插入标记与原始问题长度（ $n_2 - n_1$ ）的比例表示为 $a$ 。

第二阶段：梯度引导的标记替换。我们将扰动表述为优化问题，通过替换插入的标记来最大化 $\mathcal{L}_c$ 同时最小化 $\mathcal{L}_a$ ，从而诱导错误推理但保持正确答案。首先，我们通过将未标记问题 $x_p$ 传递给LLM生成 $y_p$ 和 $r_p$ 。如果 $y_p$ 等于 $y_{gt}$ （真实标签），我们则生成参考logits $q_c$ ， $q_a$ （公式1）。之后，我们通过将扰动输入 $x^{'}$ 传入生成扰动logits $q_c'$ ， $q_a'$ （公式1）。通过公式2，我们计算 $\mathcal{L}_c$ ， $\mathcal{L}_a$ 以及 $\mathcal{L}_{opt}$ 。

我们计算每个one-hot标记指示符 $e_x$ 的梯度，形状为 $n_2 - n_1)*a, |V|)$ ，在当前输入id处值为1，其余为0。为了识别每个插入标记位置的有希望的替换候选者，我们通过前向传递评估它们。具体来说，我们使用公式4中的梯度近似替换标记 $x_i$ 的效果，其中 $g_{tok}$ 的形状为 $n_2 - n_1)*a, |V|)$ 。我们使用此来衡量每个标记对推理/答案的影响。然而，仅仅知道影响是不够的；我们需要使用 $g_{tok}$ 找到替换的位置和每个选定位置的正确替换。

$g_{tok} = \nabla_{e_x}(-\mathcal{L}_{opt}) \tag{4}$

为了找到插入标记的合适位置（在问题部分 $x_{n_1},n_2$ 中），我们计算 $g_{tok} \cdot e_x$ （每个位置的当前标记的梯度）。然后我们选择梯度得分最高的top- $k$ 标记位置（用黄色突出显示），即最有利于鼓励答案-推理不一致的位置，如公式5所示，其中 $Q$ 表示替换的选定标记索引。

$\text{TopK}(g_{tok} \cdot e_x, k) \tag{5}$

为了找到每个选定位置 $\in Q$ 的替换标记，我们通过选择词汇表索引中梯度幅度最大的替换标记（公式6）。

$rank_{tok}[q] = \arg\max\_{v \in [|V|]} g_{tok}[q, v] \tag{6}$

最后，我们得到替换标记列表 $rank_{tok}$ ，其中每个元素对应于每个有希望位置的顶级替换标记。具体来说，预测的标记（通过梯度指导）最有效地干扰模型的推理同时保持正确答案。

| $\mathbf{Q}$ ( $n_2$ ): 如果停车场里有3辆车，又来了2辆车，停车场里有多少辆车？ |
| :–: | :–: |

对于每个 $rank_{tok}$ 中的标记，我们利用一个LLM法官，输入原始/扰动问题来检测替换标记后问题是否有相似的语义含义（法官模板可以在表9中找到）。如果含义改变，那么我们就不替换那个标记。我们继续迭代这个替换/判断过程 $j$ 步。我们使用最终扰动输入 $x_p'$ 生成最终扰动答案 $y_p'$ 和CoT $r_p'$ 。我们通过将 $r_p, r_p')$ 传递给另一个判断LLM来检查 $r_p'$ 的推理正确性（法官模板可以在表8中找到）。如果 $y_p'$ 正确而 $r_p'$ 被判错误，我们的扰动就成功了。我们在算法2和3中呈现了我们的标记级扰动程序。
4.3 嵌入级扰动

嵌入级扰动为超越离散标记空间的LLM漏洞提供了有力的洞察力 [41, 54]。因此，我们利用嵌入级扰动来微妙地扭曲模型的推理路径，同时保持答案正确性，揭露通过标记级编辑不易揭示的潜在不稳定性。高层次的想法是，细微地扰动输入问题的嵌入空间（ $E_{c}[n_{1}:n_{2}]$ ），使其不影响输出标记映射，从而导致错误推理但正确答案。类似于标记级扰动，我们生成预测答案 $y_{p}$ ， $r_{p}$ ，并检查 $y_{p}$ 是否等于 $y_{g t}$ 。如果是这样，我们则使用输入嵌入 $E_{c}$ 生成目标logits $q_{c},q_{a}$ 。之后，我们通过传入扰动后的嵌入输入生成扰动logits $q_{c}^{\prime},q_{a}^{\prime}$ （对于CoT和答案部分分别是 $E_{c}^{\prime}$ 和 $E_{c}^{\prime} \mid: n_{3}[$ ）。给定步长 $\alpha$ ，扰动范围 $\epsilon$ （原始嵌入空间的百分比），并使用公式3计算 $\mathcal{L}_{o p t}$ ，我们通过执行 $l_{\infty}$ 扰动更新嵌入如下：

$E_{t m p} \leftarrow E_{c}^{\prime}+\alpha \cdot \epsilon \cdot \operatorname{sign}\left(\nabla_{E_{c}^{\prime}} \mathcal{L}_{o p t}\right)$

然后，我们将 $E_{t m p}$ 夹在区间 $\left[E_{c}-\epsilon, E_{c}+\epsilon\right]$ 内，并仅更新 $E_{c}^{\prime}\left[n_{1}: n_{2}\right]$ 部分的嵌入为 $E_{t m p}$ ，因为我们只扰动问题部分的嵌入空间。我们继续迭代扰动步骤，预算为 $j$ 步。之后，我们使用扰动输入嵌入 $E_{c}^{\prime}$ 生成扰动答案 $y_{p}^{\prime}$ 和CoT $r_{p}^{\prime}$ 。要确定扰动是否成功，我们遵循与标记级扰动相同的程序。算法1展示了单个未标记问题的嵌入级扰动程序。

5 实验评估

	ACC (%)				UR (%)				SR (%)
	SE	GK	SA	AVG	SE	GK	SA	AVG	SE	GK	SA	AVG
Llama-3-8B	80.5	16.1	68.0	54.9	68.9	39.0	60.3	56.1	10.2	14.7	16.2	13.7
Mistral-7B	77.6	11.4	64.0	51.0	56.3	22.5	59.1	46.0	3.6	17.9	14.1	11.9
Zephyr-7B-beta	70.9	9.9	65.8	48.9	38.9	13.8	63.2	38.6	8.1	12.3	13.4	11.3
Qwen2.5-7B	85.0	24.8	74.2	61.3	56.0	38.5	67.9	54.1	2.1	4.0	4.9	3.7
DeepSeek-R1-7B	84.1	22.5	56.2	54.3	54.8	28.3	43.4	42.2	5.2	9.1	18.9	11.1

表1：SingleEQ（SE）、GSM8K（GK）和StrategyQA（SA）数据集上的标记级扰动结果。我们报告了五个模型在三个数据集上的准确性（ACC）、不可攻击率（UR）和成功率（SR）。结果表明，模型对标记级扰动具有显著的敏感性。

	ACC (%)				UR (%)				SR (%)
	SE	GK	SA	AVG	SE	GK	SA	AVG	SE	GK	SA	AVG
Llama-3-8B	80.5	16.1	68.0	54.9	24.9	41.8	21.2	29.3	5.1	10.8	29.7	15.2
Mistral-7B	77.6	11.4	64.0	51.0	88.3	63.6	79.7	77.2	0.0	18.5	2.8	7.1
Zephyr-7B-beta	70.9	9.9	65.8	48.9	70.6	54.6	77.2	67.5	2.2	13.1	2.1	5.8
Qwen2.5-7B	85.0	24.8	74.2	61.3	1.9	46.8	18.3	22.3	0.5	1.8	24.0	8.8
DeepSeek-R1-7B	84.1	22.5	56.2	54.3	20.6	59.3	10.0	30.0	6.1	6.4	33.1	15.2

表2：SingleEQ（SE）、GSM8K（GK）和StrategyQA（SQ）数据集上的嵌入级扰动结果。我们报告了五个模型在三个数据集上的准确性（ACC）、不可攻击率（UR）和成功率（SR）。结果表明，模型对标记级扰动具有显著的敏感性。

5.1 实验设置

数据集。我们使用了三套数据集，符合现有文献中的推理研究[53, 44, 30, 10]。对于数学推理，我们选择了两个数学数据集SingleEq[31]包含单步数学问题和GSM8K[9]包含多步数学问题。除此之外，我们还选择了StrategyQA[15]用于常识推理。对于所有数据集，我们使用测试拆分进行评估。具体来说，我们抽取了500个问题用于StrategyQA数据集的评估，并使用了其他两个数据集中所有的数据（SingleEq为508个，GSM8K为1319个）。更多关于数据集的细节可以在附录A.2中找到。
模型。我们的实验重点是开源和闭源模型的鲁棒性评估。对于开源模型，我们使用了Llama-3-8B[13]，Mistral-7B[28]，Zephyr-7B-beta[45]，Qwen2.57B[57]和DeepSeek-R1-Distill-Qwen-7B[21]。我们评估了白盒扰动向闭源模型GPT-4和GPT-3.5-turbo[1]的可迁移性。此外，我们使用GPT-3.5-turbo作为
比较COTs的评判模型，并使用DeepSeek-R1-Distill-Qwen-7B[21]来评估扰动问题的语义含义。

指标。对于所有数据集，我们报告准确性（ACC），攻击成功率（SR）和不可攻击率（UR）。ACC表示在没有扰动情况下正确回答问题的百分比；SR表示在扰动后正确回答问题但推理错误的百分比；UR表示在扰动后正确回答问题且推理步骤正确的百分比。WR=1-UR-ASR表示在扰动前正确回答但在扰动后回答错误的问题的百分比，这是在我们的设置中常见的。此外，UR用于表示推理扰动的鲁棒性（例如，较高的UR意味着较高的鲁棒性）。

实施。对于开源模型的标记级扰动，我们将插入比例设置为 $\alpha=0.2$ 适用于所有数据集；对于替换比例 $k$ ，我们分别将其设置为SingleEq，GSM8K和StrategyQA数据集的(0.5,0.25,0.5)。对于嵌入级扰动，我们选择扰动百分比 $\epsilon=(0.02,0.005,0.03)$ 适用于SingleEq，GSM8K和StrategyQA数据集，这对标记映射来说是不易察觉的。此外，我们将扰动步数 $j$ 设置为5适用于所有数据集和两种类型的扰动。对于闭源模型实验，我们将温度 $T = 0.7$ ，并在开源模型生成的对抗样本上测试闭源模型。默认版本的GPT-3.5-turbo是GPT-3.5-turbo-0125，使用的GPT-4o是GPT-4o-2024-08-06。除此之外，我们将生成输出的最大长度设置为256。我们在实验中使用了传统的ICL设置[4, 39]。我们应用与[53]相同的示例数量，并使用来自[10]的示例，分别是SingleEq和GSM8K的8个示例，以及StrategyQA的6个示例。运行时间，LLM法官分析和局限性可以在附录A.5和A.7中找到。

5.2 与基线的比较

在表3中，我们将MATCHA与以下标记级扰动的基线进行比较：(1) 随机：我们随机将标记插入原始问题中；(2) GCG：我们优化一个类似[64]的后缀，使用我们定义的损失；(3,4,5) MATCHA：我们实验了随机位置的MATCHA/只有CoT损失的MATCHA/完整版本的MATCHA。我们显示MATCHA可以实现较低的不可攻击率和较高的成功率，表明MATCHA标记级扰动具有更强的扰动效果。

5.3 开源模型的评估

在表2和表1中，我们展示了MATCHA成功检查并揭示了三个数据集（两个数学数据集和一个常识推理数据集）中不同模型对标记级和嵌入级扰动的敏感性。我们分析了评估框架的性能如下。

	UR	SR
Random	$49.1 (0.7)$	$10.0 (0.6)$
GCG	$65.4 (7.6)$	$12.7 (6.2)$
MATCHA (random locs)	$\mathbf{3 6 . 0}(7.5)$	$12.2 (5.0)$
MATCHA (only $\mathcal{L}_{c}$ )	$41.5 (2.9)$	$13.0 (2.4)$
MATCHA	$39.0 (5.0)$	$\mathbf{1 4 . 7}(2.4)$

表3：GSM8K数据集上Llama-3-8B的基线比较。

嵌入级 vs. 标记级攻击。不同模型在嵌入级与标记级扰动的相对强度有所不同。对于Mistral-7B和Zephyr-7B-beta，标记级扰动产生的UR较低，表明推理鲁棒性下降更严重。相反，对于Llama-3-8B，Qwen2.5-7B和DeepSeek-R17B，嵌入级扰动更有效，导致UR显著减少。SR倾向于在嵌入级扰动中相当或略高，但非平凡的SR表明MATCHA的有效性。我们观察到两种扰动揭示了模型在不同行为下的不同脆弱性。

模型比较。Mistral-7B和Zephyr-7B-beta对标记级扰动表现出更强的鲁棒性，UR较高，但对标记级扰动更脆弱，表明其推理可能对标记变化更敏感。相反，Llama-3-8B，Qwen2.57B和DeepSeek-R1-7B受嵌入级扰动影响更大，UR显著下降，这表明对输入空间中的细粒度扰动更敏感。此外，Llama-3-8B和DeepSeek-R1-7表现出相对最高的SR，显示出推理与答案之间的最大不一致性；Qwen2.5-7B几乎不存在不一致行为。

数据集比较。模型在多步推理（GSM8K）上的鲁棒性低于单步问题（SingleEq），可能是由于MATCHA可以破坏中间步骤，导致完全失败。由于多步推理依赖于顺序逻辑，小的
扰动会产生级联效应，使这些任务更脆弱。模型在常识推理（StrategyQA）上表现出中等/低鲁棒性，表明隐性知识比结构化推理更容易受到扰动的影响。虽然模型能处理逻辑推理，但它们在基于知识的推断中仍易受微妙扰动的影响。总体而言，多步和常识推理在MATCHA下更为脆弱，提高结构化和基于知识的答案/推理一致性至关重要。

ACC vs. UR。在嵌入级扰动下，准确性-UR权衡更为明显：高ACC模型如Qwen2.5-7B和DeepSeek-R1-7表现出显著较低的UR，而低准确率模型如Mistral-7B和Zephyr-7B-beta更具弹性。这表明优化准确率的模型可能发展出更尖锐的决策边界或更脆弱的内部表示，使它们更容易受到细粒度嵌入扰动的影响。相比之下，标记级扰动显示出不一致的模式，可能是因为离散替换以架构特定的方式与模型分词交互，导致不规则或不太可预测的鲁棒性下降。这些结果强调了在分析LLM推理的鲁棒性时评估两种扰动类型的重要性。

图2：使用标记级成功示例进行闭源模型（GPT-3.5-turbo和GPT-4o）实验的可迁移性，显示非平凡的向开源模型的可迁移率。

5.4 向闭源模型的可迁移性

图2展示了我们的标记级扰动向闭源模型GPT-3.5-turbo和GPT-4o的可迁移率。结果显示非平凡的可迁移性，表明为开源模型生成的成功扰动仍能有效愚弄黑盒模型。

数据集级别的可迁移性：对于SingleEq相比GSM8K，可迁移率通常较低，表明具有单步推理的简单数学问题更难攻击。由于这些问题涉及较少的推理步骤，因此扰动破坏模型逻辑进展的机会较少。相反，多步推理任务（GSM8K）显示出更高的可迁移率，表明扰动中间步骤解决复杂问题是有效的攻击策略。此外，对于常识推理，结果显示中等可迁移性。

GPT-3.5-turbo与GPT-4o之间的比较：总体而言，GPT-4o表现出与GPT-3.5-turbo相对相似的可迁移率，表明即使在更高级别的模型中，输入扰动可能尚未得到充分研究或纳入训练过程中。

5.5 成功攻击的例子

我们将成功的攻击例子分为以下四种错误类型，并在图3中选择四个例子（每种类别一个）来自不同模型/数据集。

错误计算指的是计算步骤中的错误。如图3的第一行所示，模型认为“20/3=5”，这是计算中的错误。错误推理指的是在到达正确解决方案的过程中明显的推理错误。对于图3中的第二个例子，模型犯了计算总运行小时数的错误（应该是3 + 2/3 * 2 = 6而不是4.5），导致整个推理过程出现错误。错误信息指的是模型输出了一些根据问题不正确的信息，以得出正确答案。我们在图3的第三列展示了一个例子，其中模型虚构了“Sophocles”而不是“Sophist”以得出正确答案。无关信息指的是模型在尝试回答问题时输出了一些无关的信息。

图3：我们标记级和嵌入级扰动在不同模型上的成功示例。我们将错误分类为四类。对于标记级扰动，替换的标记用红色标注；对于CoTs，错误的步骤用红色标注。
问题。在第四列中，模型开始编造不存在的信息，例如“树林中有15棵树”来猜测答案。完整的成功攻击示例列表可以在附录A.6中找到。

(a) 标记级：步骤数量。

(b) 标记级：插入标记比例。

图4：关于扰动步骤数量和插入标记比例的消融研究。

5.6 消融研究

扰动步骤数量。图4a显示了使用Llama-3-8B模型（400个示例）在GSM8K数据集上扰动步骤对UR和SR的影响：成功率通常对步骤数量不敏感，因此我们选择5步以提高效率为目的的所有基线和MATCHA。
与原始问题相比插入标记的比例。我们研究了与原始问题相比不同比例的插入标记如何影响Llama-3-8B模型在GSM8K数据集上的表现（400个示例，见图4b）。从结果来看，0.2是一个很好的选择，可以平衡成功率、效率以及问题语义的小变化。
有关嵌入级扰动的额外消融研究可以在附录A.4中找到。

6 结论

我们介绍了MATCHA，一种新颖的评估框架，用于展示推理/答案之间的错位并评估LLM推理的鲁棒性。我们的结果表明，LLM对标记扰动高度敏感，尤其是在多步和常识推理方面。我们的黑盒可迁移性实验还揭示了闭源模型如GPT上显著的攻击成功率，突显了更广泛的漏洞。这些发现强调了答案与推理之间一致性的重要性，以及更多训练策略以增强CoT的可靠性。