《Membership Inference Attacks Against Machine Learning Models》论文分析

贡献

1、第一个提出了针对机器学习模型的成员推理概念

2、创造性的提出了影子模型的方法以及影子模型训练数据的生成方法

3、探究了一些防御措施的效果

背景知识

敌手拥有的知识(敌手可能拥有以下对抗性知识,也可能没有)

1.目标模型的结构和训练算法(可以调用训练目标模型的api去训练影子模型来改善(如下图所示),在另一篇ccs论文中也提到过影子模型和目标模型结构和训练算法完全不同,成员推理攻击也可达到不错的效果)

2.和目标模型训练数据同分布但不与其相交的数据(攻击者若不能获得可以用公共数据集替代来训练影子模型(这种做法会降低推理准确性),或是采用本文所提出的数据生成方法)

3.从目标模型训练数据中提取所得的统计数据(例如目标模型训练数据各个特征的边缘分布,攻击者掌握了这种知识可以对各个特征按照边缘分布进行独立均一抽样合成供给影子模型训练的数据)

方法论

成员推理攻击

步骤

1.得到供影子模型进行训练和测试的数据

2.在供影子模型进行训练的数据上对影子模型进行训练

3.将影子模型训练和测试数据分别馈送给影子模型,得到相应的预测置信度分数向量,并分别标记为in(对训练数据标记)、out(对测试数据标记),标记好的数据即为攻击模型的训练数据

4.将攻击模型的训练数据按照真实类别标签进行分类,将每个类别的数据各训练一个攻击模型

5.将要推测成员资格的数据馈送给目标模型得到预测置信度分数向量及其预测类别。按照其预测类别选择所对应的攻击模型,将置信度分数向量馈送给该攻击模型得到in/out的预测

 

影子模型训练数据合成 

基于模型合成(背后思想:被模型以高置信度分数预测的数据,更有可能是目标模型的训练数据)

1.搜索阶段:在数据可能取值的空间使用爬山算法,找到被目标模型以高置信度分数分类的数据

2.采样阶段:对达到要求的数据进行采样,进行下一轮迭代,直到数据量达到要求

算法伪代码如上所示,上述算法旨在生成类c的合成数据,confmin为设置的置信度分数阈值,为了确保模型有足够的自信对数据作出预测。

 基于统计指标的合成

在敌手知道各个特征边缘分布的情况,他可以对每个特征独立的从其边缘分布中采样值以合成数据。

基于真实数据的噪声版本

这种场景模拟了敌手仅能获得与目标模型训练数据同分布数据的噪声版本数据。

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值