2022CCSMembership Inference Attacks by Exploiting Loss Trajectory论文学习

首先论文中最大的创新点就是:利用目标模型训练过程中的信息进行隶属度推理攻击,提出了一种基于知识蒸馏的新型攻击方法TRAJECTORYMIA。利用目标模型整个训练过程中的隶属度信息来提高攻击性能。为了在常见的黑盒设置中进行攻击,利用知识蒸馏,并通过在不同蒸馏时期对一系列中间模型(即蒸馏损失轨迹)进行评估的损失以及给定目标模型的损失来表示隶属度信息。

 这张图是论文中的图,通过多轮次epoch训练最终的损失成员和非成员的趋近于同样的值,这样子就没办法做到MIA攻击。但是在训练过程中,成员以及非成员的值损失函数的下降速度是不一样的。这篇论文最核心的思想也是抓住了这一点进行攻击。

要安装TRAJECTORYMIA,第一步是获得目标样品的损耗轨迹。然而,在实际场景中,在目标模型的训练过程中,对手只能观察到最终训练的目标模型,而不能观察到所有中间模型。为了解决这个问题,我们利用知识蒸馏。具体地说,攻击者首先对目标模型执行黑盒模型蒸馏以获得蒸馏模型。在这个过程中,他们在本地保留了提炼模型的所有中间版本。在这里,不同的版本对应不同的训练epoch。

这边就有一个问题就是只是蒸馏是什么?

简单的说就是将大模型的知识迁移到小得模型上去。这个主要是有的模型模型大参数多训练很慢,当面对一些对时间有限制的任务时可能会无法按时完成,但小模型则是通过大模型给予其训练后的调整参数,训练起来会更快,同时预测结果也不会相差太多。

当然这个也只是简单的基础概念,详细的之后再写一篇文章来提炼。

之后就是MIA是什么:成员推理攻击。具体地说,给定一个目标样本x,一个训练好的ML模型Mq和对手的一些外部知识,用I表示,成员推理攻击a可以用以下函数定义:

0表示不是目标成员,1表示是,整体就是一个二分类问题。

这篇论文的攻击背后的主要思想是利用成员样本和非成员样本之间的主要区别,即前者确实参与了目标模型的训练,而后者没有。一般假设是,与成员样本相比,非成员样本在每个训练时期的损失评估上应该有一个明显的变化模式,即损失轨迹。

 这张图给出了目标模型的成员样本和非成员样本之间的损失分布,大多数非成员样本确实得到了与成员样本相似的小损失。这导致大多数现有MIA的高假阳性率,并使它们在实际场景中不可靠。

对手只能黑盒访问目标模型,也就是说,只有目标模型在其最后一个训练时期是可直接访问的。这样子的话最终只能得到如上图所示的结果这样子就会存在较高的假阳性。

为了解决这个问题,利用知识蒸馏。具体来说,攻击者首先对目标模型进行标准模型蒸馏,并获得蒸馏后的模型。通过这样做,对手可以完全控制蒸馏过程,并且可以在不同时期保留蒸馏的目标模型。经过蒸馏后,攻击者可以在所有中间蒸馏模型上评估任意给定的目标样本,以获得其损失轨迹,称之为蒸馏损失轨迹。

这张图就是蒸馏损失轨迹MIA攻击的流程图,整体而言与标准的MIA模型差别不大,论文的创新点主要在于引入了只是蒸馏管道。

同时攻击者在阴影数据集d上训练攻击模型,就像常见的MIA方法一样,但唯一的区别是攻击模型的输入变成了所有提取的阴影模型的损失轨迹和原始阴影模型的损失的连接。

之后做的实验选取的数据集主要是图像数据集,评估指标有以下:

Full Log-scale ROC.这是常用的接受者工作特征(ROC)曲线,比较真阳性与假阳性的比例,但以对数尺度表现,以强调低FPR(假阳性)制度

 TPR at Low FPR:总结了单一低假阳性率的攻击性能,以便快速评估。论文还进一步将此度量应用于从目标模型获得的具有不同损失水平的单独样本组。

Balanced Accuracy and AUC:它们是两种广泛使用的平均情况指标,用于衡量二元分类任务的性能,包括大多数以前的MIAs。这里的“平衡”意味着成员和非成员样本的数量是相同的。由于它们不是评估mia的最合适的量度,我们在这里采用它们只是为了完整性。

这是对纯标签的攻击效果

这是对四种不同数据集在低FPR情况下的攻击效果图。 四种不同数据集和四种模型架构(从上到下:ResNet-56、MobileNetV2、VGG-16和WideResNet-32)上攻击的ROC曲线。

对于从目标模型获得的具有不同损失范围的样本,在四个数据集上训练ResNet-56的不同攻击的0.1% FPR的TPR。这里考虑三个损失范围,“小”:[0.0,0.02],“中”:[0.02,0.2]和“大”:[0.2,正无穷]。 

这里仅仅是我部分的阅读,之后有时间接着补充。

总体可以提炼出的思想就是

1:常见的MIA攻击针对过拟合效果会非常好

2:可以通过知识蒸馏的方式提取出攻击过程中的损失函数曲线

3:成员与非成员的损失函数通过大量训练后相同的几率很大,但是两者下降的速度不同,论文主要就是抓住了这一点进行了攻击,由此来识别目标与非目标成员。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值