置换检验（Permutation Test）与 p 值：从统计学到数据污染检测的桥梁

阿正的梦工坊

于 2025-04-26 15:03:53 发布

阅读量1k

点赞数 19

分类专栏： Mathematics 文章标签：人工智能

本文链接：https://blog.csdn.net/shizheng_Li/article/details/147537079

版权

Mathematics 专栏收录该内容

133 篇文章

订阅专栏

置换检验与 p 值：从统计学到数据污染检测的桥梁

在统计学和数据科学领域，置换检验（Permutation Test）是一种强大的非参数方法，用于检验样本之间的差异是否显著，而无需依赖特定的分布假设。近年来，置换检验结合 p 值被广泛应用于机器学习领域，例如检测大型语言模型（LLM）中的数据污染问题。本文将深入介绍置换检验的原理、计算步骤，并结合 p 值在数据污染检测中的应用，面向对统计学和机器学习感兴趣的读者，提供直观的解释和示例。

什么是置换检验？

置换检验是一种非参数统计方法，通过随机打乱数据的标签或顺序，生成一个“随机分布”，从而评估观察到的统计量（例如两组均值差异）是否显著。它的核心思想是：如果样本间的差异是随机的，那么打乱标签后重新计算的统计量应该与原始统计量相似；如果差异显著，则原始统计量在随机分布中会显得“异常”。

置换检验的优点

非参数：无需假设数据服从特定分布（如正态分布），适用于小样本或非正态数据。
灵活性：可以应用于各种统计量（均值、相关系数、对数概率等）。
直观性：通过随机化的方式直接模拟“零假设”（null hypothesis），结果易于理解。

置换检验的基本步骤

以检验两组数据均值差异为例：

计算原始统计量：计算两组数据的原始均值差异，作为观察值（记为 ( $T_{\text{obs}}$ )）。
零假设：假设两组数据没有差异（即标签可以随意交换）。
随机打乱：将两组的标签（或数据）随机打乱，重新分配到两组，计算新的均值差异（记为 ( $T_{\text{perm}}$ )）。
重复打乱：重复上述打乱过程多次（例如 1000 次），生成 ( $T_{\text{perm}}$ ) 的分布。
计算 p 值：比较 ( $T_{\text{obs}}$ ) 与 ( $T_{\text{perm}}$ ) 分布，计算 p 值：
$\frac{\text{Number of } T_{\text{perm}} \geq T_{\text{obs}}}{\text{Total number of permutations}}$
判断显著性：如果 p 值小于显著性水平（例如 0.05），拒绝零假设，认为两组有显著差异。

示例：用置换检验比较两组数据的均值

数据

假设我们有两组学生的考试成绩，想检验它们的均值是否显著不同：

组 A（5 人）：[85, 90, 88, 92, 87]，均值 = 88.4
组 B（5 人）：[78, 80, 76, 82, 79]，均值 = 79.0
原始均值差异：
$T_{\text{obs}} = 88.4 - 79.0 = 9.4$

零假设

两组成绩没有差异，标签（组 A 或组 B）可以随意交换。

置换检验步骤

计算原始统计量：( $T_{\text{obs}} = 9.4$ )。
随机打乱：将所有成绩（[85, 90, 88, 92, 87, 78, 80, 76, 82, 79]）随机分配到两组（每组 5 人），计算新的均值差异。例如：
- 打乱 1：组 A = [85, 78, 80, 76, 82]，组 B = [90, 88, 92, 87, 79]
  均值：组 A = 80.2，组 B = 87.2，差异 = 80.2 - 87.2 = -7.0
- 打乱 2：组 A = [90, 88, 78, 80, 76]，组 B = [85, 92, 87, 82, 79]
  均值：组 A = 82.4，组 B = 85.0，差异 = 82.4 - 85.0 = -2.6
重复打乱：假设重复 1000 次，得到 ( $T_{\text{perm}}$ ) 分布，例如：[-7.0, -2.6, 4.2, -5.8, 9.4, …]。
计算 p 值：
- 统计 ( $T_{\text{perm}} \geq T_{\text{obs}} = 9.4$ ) 的次数。假设 1000 次打乱中，只有 20 次满足条件（包括原始情况）。
- p 值：
  $\frac{20}{1000} = 0.02$
结论：p 值 = 0.02 < 0.05，拒绝零假设，认为两组成绩均值有显著差异。

p 值的含义

p 值是置换检验的核心输出，表示“在零假设下，观察到的统计量（或更极端的情况）出现的概率”。在上述例子中：

p 值 = 0.02 意味着：在随机打乱标签的情况下，只有 2% 的可能性会得到均值差异 ≥ 9.4。
如果 p 值 < 0.05，我们认为结果显著，说明组 A 和组 B 的成绩差异不太可能是随机的。

类比

想象你在玩一个游戏，掷骰子 10 次，得到 8 次 6 点。你怀疑骰子有问题（不公平）。零假设是“骰子公平”，你通过模拟掷骰子 1000 次，计算每次得到 8 次或更多 6 点的概率。如果只有 1% 的模拟结果满足条件（p 值 = 0.01），你会认为骰子可能不公平。p 值越小，说明观察到的结果越“异常”，越有可能拒绝零假设。

置换检验在数据污染检测中的应用

在机器学习领域，数据污染（Data Contamination）是指测试集数据意外混入训练数据，导致模型在测试时表现异常优异，但泛化能力不足。置换检验结合 p 值可以用来检测这种污染，尤其是在跨语言数据污染的研究中，例如论文《Data Contamination Can Cross Language Barriers》中使用的 Shared Likelihood 方法。

Shared Likelihood 方法

Shared Likelihood 方法（Oren et al., 2023）利用置换检验检测模型是否记住测试集数据。其核心假设是：如果模型在预训练中见过测试集，它会对测试集的原始顺序（canonical order）赋予更高的对数概率（log probability），相比于随机打乱顺序的测试集。

步骤

计算原始对数概率：计算模型在测试集原始顺序上的对数概率和（( $\log P_{\text{orig}}$ )）。
随机打乱：多次打乱测试集的顺序（例如问题或选项的排列），计算每次打乱后的对数概率和（( $\log P_{\text{perm}}$ )）。
置换检验：比较 ( $\log P_{\text{orig}}$ ) 与 ( $\log P_{\text{perm}}$ ) 分布，计算 p 值：
$\frac{\text{Number of } \log P_{\text{perm}} \geq \log P_{\text{orig}}}{\text{Total number of permutations}}$
判断污染：如果 p 值 < 0.05，说明模型对原始顺序的偏好显著，可能被污染。

示例：检测 MMLU 测试集污染

假设我们有一个小型测试集（MMLU 的一部分），包含两个多选题：

问题 1：2+2=? 选项：A) 4, B) 5, C) 6, D) 7（正确：A）
问题 2：3+3=? 选项：A) 5, B) 6, C) 7, D) 8（正确：B）

步骤：

计算原始对数概率：
- 测试集文本：2+2=? A) 4 B) 5 C) 6 D) 7 3+3=? A) 5 B) 6 C) 7 D) 8
- 假设模型（例如 LLaMA3-8B）计算的对数概率为：( $\log P_{\text{orig}} = -15.0$ )。
随机打乱：
- 打乱 1：3+3=? A) 5 B) 6 C) 7 D) 8 2+2=? A) 4 B) 5 C) 6 D) 7，( $\log P_{\text{perm1}} = -15.4$ )
- 打乱 2：2+2=? B) 5 C) 6 D) 7 A) 4 3+3=? A) 5 B) 6 C) 7 D) 8，( $\log P_{\text{perm2}} = -15.2$ )
- 打乱 3：3+3=? C) 7 D) 8 A) 5 B) 6 2+2=? A) 4 B) 5 C) 6 D) 7，( $\log P_{\text{perm3}} = -15.5$ )
- 重复 1000 次，得到 ( $\log P_{\text{perm}}$ ) 分布：[-15.4, -15.2, -15.5, …]。
计算 p 值：
- 假设 1000 次打乱中，只有 10 次 ( $\log P_{\text{perm}} \geq -15.0$ )。
- p 值：
  $\frac{10}{1000} = 0.01$
结论：p 值 = 0.01 < 0.05，说明模型对原始顺序的偏好显著，可能在预训练中见过测试集，存在污染。

跨语言污染的挑战

如果模型在法语版的 MMLU 测试集上被污染（例如 2+2=? A) 4 B) 5 C) 6 D) 7 的法语翻译），它记住的是法语文本的顺序。Shared Likelihood 方法在英语测试集上计算 p 值时，可能无法检测到这种污染，因为原始顺序的偏好被翻译打破。例如，实验中法语污染的 p 值 = 0.1295（> 0.05），未检测到污染。