文献阅读--数据集推断 DATASET INFERENCE: OWNERSHIP RESOLUTION IN MACHINE LEARNING

最新推荐文章于 2024-07-23 16:42:26 发布

学渣渣渣渣渣

最新推荐文章于 2024-07-23 16:42:26 发布

阅读量1.7w

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/weixin_42468475/article/details/116193110

版权

论文阅读专栏收录该内容

35 篇文章 10 订阅

订阅专栏

内容摘要

本文通过观察发现了：训练集所蕴含的 knowledge 会在基于其训练的模型上体现出来（以及根据此模型通过一定方法复制出来的模型）。因此，本文踢出了一个概念：dataset inference，用于检测一个可疑模型是否含有原始模型训练集的 private knowledge ，以此抵御模型窃取。

1 原理

1.1 prediction margin

在本文中，作者提出了一个概念：prediction margin，用来指 the disparity in the response of an ML model to inputs that it saw during training time, versus those that it did not.它反映了模型输出的置信度。也是后文的 $\Delta(\textbf{x},\textbf{x}+\delta)$ 。
本文的中心工作也是量化这样的 disparity，并证明了 MI 在本场景下的失效。

在这里插入图片描述
看上图，本文的 basie idea：成员数据在模型预测下到各类 非标签 的距离大于非成员数据。

1.2 白盒场景

这样的场景适用于有客观的、可以做出公正裁决的第三方机构鉴定数据集、模型的侵犯，第三方可以看到模型内部结构以及利用梯度下降算法生成指定扰动 $\delta$ 。为此，作者提出了 MinGD 算法，此算法基于梯度下降算法，寻找:
${\argmin}_{\delta} \Delta(\textbf{x},\textbf{x}+\delta)，s.t.~f(x+\delta)=t$
这里 $t$ 是指样本 $\textbf{x}$ 真实标签附近的其他标签， $\Delta$ 是一种样本间范数距离度量方法：
$\Delta(\textbf{x},\textbf{x}+\delta)=\Vert (\textbf{x},\textbf{x}+\delta) \Vert _{p}$ ，p可以代表1、2、∞范数。
这种算法类似于对抗样本的生成，只不过是针对每一类标签都进行梯度下降的迭代寻找那个最小距离。

这样计算出来的使得模型预测为每一类别的范数最小扰动 $(\Delta_{1},...,\Delta_{k-1},\Delta_{k}=0,\Delta_{k+1},...,\Delta_{c})$ (假设此样本真实标签为 $k$ ) ，就是后续验证所有权需要的 embedding vector 。

1.3 黑盒场景

有时候，受害者得验证公开部署的模型的所有权，这样部署的模型仅可以给定输入预测标签，这种场景下，作者提出了 Blind Walk 算法。此算法通过添加随机噪声于给定样本，来衡量该数据点的鲁棒性，以此用来估计模型的 prediction margin 。
和白盒场景下的算法类似，我们随机生成初始 $\delta$ ，注意这里的 $\delta$ 在整个算法中是一个定值。对于一个输入 $(\textbf{x},y)$ ，寻找一个 $\in \mathbb{N}$ （自然数），同样要求满足 $f(x+k\delta)=t;t \ne y^{true}$ ，这样一来，通过不断增加迭代增加 $k$ ，我们最终找到的满足条件的 $\delta$ 下的 $\Delta(\textbf{x},\textbf{x}+k\delta)$ 就是我们需要用到的东西（prediction margin）。

1.4 所有权验证流程

本文提出的验证方法在于最小化 FPR，并分为2个阶段：1.回归模型推断可疑模型在特定样本上的预测是否包含了受害者的隐私数据；2.对那些被检验样本的所有推断结果进行聚合，假设检验，判断 dataset inference 的最终结果。相比 MI，这种方法多了一个步骤2。
可以概括如下图所示：
在这里插入图片描述

（1）Embedding generation

对于白盒的 MinGD 算法，我们设置在每一种距离上的学习步长为 ${α_∞, α_2, α_1\} = \{0.001, 0.01, 0.1\}$ 。然后利用梯度下降算法通过不断迭代，找到产生距离最小且能使模型分为其他类的 $\delta$ ，并计算三种情况 $l_1,l_2,l_{\infty}$ 下的 $\Delta(\textbf{x},\textbf{x}+\delta)$ ，每一类标签可以计算得到大小为3的矢量 { $l_1,l_2,l_{\infty}$ }。
所以在10分类训练任务中，针对一个数据样本，可以计算得到总分类数目(10)*范数类别数目(3) = 30大小的矢量，作为 Embedding。

对于黑盒条件下 Blind Walk 算法，我们利用三种噪声来寻找 prediction margin 。对于噪声的选取，我们规定 均匀噪声 对应 $l_{\infty}$ ， 高斯噪声 对应 $l_{2}$ ， 拉普拉斯噪声 对应 $l_{1}$ 。用这三种噪声可以联合有效地抽取数据样本鲁棒性的信息。注意只有在 Blind Walk 算法中我们才使用这三种噪声。

Embedding generation中两种算法的对比分析

而在实验结果来看， Blind Walk 算法效果更好，因为白盒的 MinGD 算法类似对抗样本，利用梯度下降，能够得到到达某一类别的局部最低点的最小距离，存在偶然性。相比之下， Blind Walk 算法能够计算到达某一类的平均距离，可能更加能够体现 prediction margin 。

这样得到的综合距离的流程被称为 Embedding generation ，也就是后面回归模型的训练数据。

（2）Confidence Regressor 置信回归模型

为了完成步骤1，我们需要训练一个回归模型。根据我们在白盒、黑盒场景下 $f_v$ 对成员数据 $S_v$ （受害者的隐私数据集）和非成员数据（除了受害者隐私数据集以外的数据集）计算得到的 $(\Delta_{1},...,\Delta_{k-1},\Delta_{k}=0,\Delta_{k+1},...,\Delta_{c})$ ，结合真实成员标签，可以训练一个回归模型 $g_{v}$ ， $g_{v}$ 的作用是给定一样本在可疑模型下计算得到的 prediction margin，预测出一个概率（认为该条数据包含了 $f_v$ 隐私信息的置信度），在我们的假设检验中，我们要求 $g_{v}$ 对来自 $S_v$ 样本的预测值更小。受害者对 $S_v$ 中所有数据进行计算，以训练更加精确的 $g_v$ 。
具体来说，回归模型的损失函数定义为： $Loss(\mathbf{x},y)=-b*g_v(\mathbf{x})$ ，当该数据来自 public training set 时， b=1 ；当来自 victim’s private set 时，b=-1。这样优化下来的结果是，来自 public training set 计算得到的 prediction margin 会大于来自 victim’s private set。 所以训练以后模型的结果，confidence越大，说明该数据越接近 public training set。

（3）Hypothesis Testing 假设检验

在上一步骤得到了 Confidence Regressor 以后，给定 $m$ 条成员和非成员数据，我们依然重复之前的步骤：计算 $(\Delta_{1},...,\Delta_{k-1},\Delta_{k}=0,\Delta_{k+1},...,\Delta_{c})$ 作为 $g_v$ 的输入，得到输出它们各自的矢量形式的置信分数 ${\boldsymbol{c}}=(c_1,c_2,...,c_m)$ （ $c_m$ 代表第一个样本的置信分数）和 ${\boldsymbol{c}}_{v}$ 。然后检验无效假设 $H_0: \mu < \mu_v$ where $\mu=\bar{\boldsymbol{c}}$ and $\mu_v=\bar{\boldsymbol{c}}_{v}$ are mean confidence score。这样一来，检验就可以拒绝 $H_0$ 并决定性地宣称 $f_A$ 是 “偷来的” ，或给出一个不确定（无法判定）的结果。

具体而言，我们用来自 public datasets 和 private datasets 的等量样本查询模型，计算得到的 embeddings ，然后输入 Confidence Regressor 得到 confidence score vectors $\boldsymbol{c}$ and $\boldsymbol{c_v}$ ，对这两个矢量的分布进行双样本T检验，计算单边检验 $H_0: \mu < \mu_v$ 和 $H_{alt}: \mu > \mu_v$ 的p值。从损失函数的优化方向来看， $g_v$ 学习去最小化对来自 $S_v$ 的样本的输出 $g_v(\mathbf{x})$ , $\mathbf{x} \in S_v$ ，并最大化来自 pubic dataset 的样本的输出分数。因此，一个矢量 ${\boldsymbol{c}}$ 中如果包含了来自 $S_v$ 的数据，会产生更低的 confidence scores，从而减小了检验的 p值。如果p值低于前面定义的显著水平 $\alpha$ ， $H_0$ 就被拒绝，从而得出结论：模型被盗用了。

2 实现及实验

数据集

本文在 CIFAR10, CIFAR100, SVHN and ImageNet datasets 进行了实验。

模型

受害者的模型为 WideResNet ，深度28宽度10， dropout rate of 0.3，适用于CIFAR10 and CIFAR-100 数据集。对于2.1节模型窃取的验证，我们采用了更小的结构，例如 WRN-16-1 on CIFAR10 and WRN-16-10 on CIFAR100。

2.1 讨论可能的模型窃取攻击

本文考虑了多种强大的模型窃取攻击，并引出了针对 dataset inference 的攻击方法，以对我们的方法做一个 adaptive evaluation （适应性评估）。攻击者 $A$ 所获取受害者 $V$ 的private knowledge可以被分为以下几类：

(1) $A_Q$ 有 $f_v$ 的查询访问权。这里，我们考虑在这种场景下的模型萃取攻击：
(1.a) 即在给定输入样本，仅获取预测矢量（ prediction vectors）的场景下，最小化copy模型和原始模型在这些样本上预测结果的 KL散度 。
(1.b) 更恶劣的场景下，攻击者仅可以获取预测矢量置信度最高的那一类的标签。