论文笔记（九）《UNLEARNABLE EXAMPLES: MAKING PERSONAL DATA UNEXPLOITABLE》

最新推荐文章于 2024-07-25 23:06:58 发布

学而时习之！！

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量945

点赞数

分类专栏：不可学习样本文章标签：深度学习计算机视觉机器学习

本文链接：https://blog.csdn.net/qq_39667860/article/details/124897247

版权

不可学习样本专栏收录该内容

1 篇文章 0 订阅

订阅专栏

《不可学习样本：使个人数据不可利用》
背景：免费的学习资料很多，但是引起了使用未经授权使用个人的数据进行商业训练的隐私担忧。

贡献：提出了一种误差最小化噪声，它可以使训练示例不可学习。
错误最小化噪声是有意产生的，以减少一个或多个接近于零的训练示例的错误，可以防止模型在训练过程中受到目标函数的惩罚，从而使模型认为没有“任何”可以从示例中学习。让深度学习无法利用个人未经授权的数据。

误差最小化噪声可以基于样本也可以基于类产生。

相关工作：
数据中毒攻击：
数据中毒攻击的目的是通过修改训练样例来降低模型在干净样例上的性能。
虽然数据中毒攻击可以潜在地阻止免费的数据利用，但这些方法对dnn来说非常有限，并且很难在现实场景中操作。
后门攻击以一种隐形的触发模式毒害训练数据，但后门攻击不会损害模型在干净数据上的性能。

结论：因此，它不是一种有效的数据保护方法。与这些作品不同的是，我们用看不见的噪音生成不可习得的例子来“绕过”dnn的训练。

对抗攻击：
对抗性训练可以制定为一个最小-最大优化问题。

结论：我们是要通过最小-最小优化过程寻找最小化噪音。与之相反。

问题陈述
防御能力假设：假设防御者只能访问且能完全访问想让数据编程不可访问的那部分数据，修改后也不能再次修改。

目标:我们在用dnn进行图像分类的背景下提出了这个问题。给定一个典型的k类分类任务，我们将干净的训练数据集和测试数据集分别表示为Dc和Dt，在Dc上训练的分类DNN为fθ，其中θ是网络的参数*。我们的目标是将训练数据Dc转换为不可学习的数据集Du，这样在Du上训练的dnn在测试集Dt上的表现就会很差。
我们的目标是欺骗模型，

噪音的形式：
基于样本的噪音，n是干净样本的个数，实用性差

基于类的噪音，k是类别数
更容易暴露

生成最小化噪音
理想情况下，噪声应该在与Dc不同的额外数据集中产生。这将涉及到一个类匹配过程，从额外的数据集中为Dc中要保护的每个类找到最合适的类。为了简单起见，这里我们定义了噪声产生过程，并将在实验中验证使用额外数据集的有效性。给定一个干净样本x，我们建议通过解决以下两层优化问题来为训练输入x生成误差最小的噪声δ:

F’为产生噪声的源模型。这是一个最小-最小双层优化问题:内部最小化是一个约束优化问题，它找到lp -范数有界噪声δ使模型的分类损失最小，而外部最小化问题找到参数θ也使模型的分类损失最小。

基于样本噪音产生，采用一阶优化方法PGD 求解约束内极小化问题如下:

t是当前扰动步长（一共T步），是相对于输入损失的梯度，π是投影函数，α是步长大小。在模型训练的每M步之后，对T步重复应用扰动。最终输出是一个不可学习的示例x’，生成的误差最小化噪声为δ = x’−x。
基于类噪音的产生：分类噪声∆c可通过对给定类别中的所有示例进行累积扰动得到。对于k类中的每一个例子，在步骤t时，将δk应用到原始例子x上，并根据公式3得到x’t+1。在整个双层优化过程中，δk累计到对应的k类的每个例子上。
实验
演示了在样本和类的形式中使用随机噪声、误差最大化噪声和我们提出的误差最小化噪声创建不可学习示例的有效性。进一步在4个基准图像数据集上实证了误差最小化噪声的有效性。然后我们对噪声进行了一组稳定性和可转移性分析。最后，我们通过一个人脸识别的案例研究，展示了在现实场景中的有效性。
实验设置.
我们将误差最小化噪声应用于4个常用图像数据集的训练集:SVHN (Netzer et al.， 2011)、CIFAR-10、CIFAR-100(Krizhevsky, 2009)和ImageNet子集(前100个类)(Russakovsky等人，2015)。在ImageNet子集上的实验是为了验证高分辨率图像的有效性。所有实验均使用ResNet-18 (RN-18) (He et al.， 2016)作为源模型f’产生噪声。我们使用训练数据集的20%来生成类级噪声，使用整个训练数据集来生成样本级噪声(ImageNet除外)。在4.1节和4.2节的实验中，我们将整个训练数据集转换为不可学习数据集。第4.3节的实验中使用了不同百分比的不可学样例。我们在不可习得训练集上训练四个不同的dnn: VGG-11 (Simonyan &Zisserman, 2014)， ResNet-18 (RN-18)， ResNet-50 (RN-50)和DenseNet-121 (DN-121) (Huang等，2017)。我们也使用干净的训练集作为比较。详细的培训配置设置可以在附录b中找到。我们通过检查模型在干净测试示例上的准确性来评估不可习示例的有效性，即，干净测试的准确性越低，效果越好。

学而时习之！！

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文笔记（九）《UNLEARNABLE EXAMPLES: MAKING PERSONAL DATA UNEXPLOITABLE》

《不可学习样本：使个人数据不可利用》背景：免费的学习资料很多，但是引起了使用未经授权使用个人的数据进行商业训练的隐私担忧。贡献：提出了一种误差最小化噪声，它可以使训练示例不可学习。错误最小化噪声是有意产生的，以减少一个或多个接近于零的训练示例的错误，可以防止模型在训练过程中受到目标函数的惩罚，从而使模型认为没有“任何”可以从示例中学习。让深度学习无法利用个人未经授权的数据。误差最小化噪声可以基于样本也可以基于类产生。相关工作：数据中毒攻击：数据中毒攻击的目的是通过修改训练样例来降低模型在干净样
复制链接

扫一扫

专栏目录