贡献
1.针对深度生成模型成员推理的系统分类
2.通用的攻击模型及其新颖的变体
3.新颖的攻击校准技术
4.对每种背景下推理攻击的系统分析
方法论
背后思想
样本x为生成模型训练集成员的概率和生成模型生成x的概率成正比。(生成模型的目标即为让生成器生成的样本分布近似训练集样本的分布,因此训练好的生成器其生成样本概率分布是基本等价于训练集分布的)
通用攻击模型
因为生成样本的分布不能用具体的概率密度函数表示,因此也就无法直接求得生成器生成样本x的概率。本文采用Parzen window概率密度估计,并将概率估计如下:(ϕ(x,y)随x,y之间的距离增加呈指数下降,因此仅使用x和y距离最大部分的项即可很好的近似概率。ps:我对这个的理解是取决定概率的大头保留即可)
ϕ(·, ·)表示核函数,L(·, ·)为一般距离度量(其由三项组成,定义如下所示),k为样本数目
λ1,λ2 ,λ3 分别表示损失项的三项构成各自权重比例。L2表示逐元素级(逐像素级)的差项。Llpips为一种图像质量评估指标,因此对于非图像数据,其权重应设置为0。Lreg表示正则化项,惩罚隐藏码z偏离其先验分布。在黑盒中,因为对z ∼ Pz的约束则将λ3置为0。
黑盒攻击(敌手仅能得到生成器生成的样本)
将x的重构(R)带入通用攻击近似概率中的Gv(zi)即可得到生成器生成样本x的近似概率。
部分黑盒攻击(敌手能调整生成器的隐藏码z从而得到相应的Gv(z))
使用Powell’s Conjugate Direction方法可以求得近似最佳值Gv(z)。
同理将x的重构(R)带入通用攻击近似概率中的Gv(zi)即可得到生成器生成样本x的近似概率。
白盒攻击(敌手能得到生成器的整个内部情况)
这种场景下有更多可以利用的知识,本文对这种情况采用L-BFGS算法进行优化求得近似最佳值Gv(z))。
攻击校准技术
背后观察: 样本的重构误差(即前面定义的L)依赖于样本自身的复杂程度。
因此本文采用在与目标生成器训练数据集相关但不相交的数据集上训练参考生成器,通过参考生成器得到的样本参考重构误差去校准目标生成器的重构误差,从而减弱重构误差对样本的依赖性。形式化定义如下(Lcal即为校准后的误差,Gr为参考生成器,参考生成器在白盒场景中与目标生成器同网络架构,但在完全和部分黑盒场景中与目标生成器网络架构不相关,在Gr上的优化(即得到R(x |Gv))))与前面提到的白盒场景中的重构优化相同):
因此,可利用以下形式进行成员推理(为sigmoid函数,1为指示函数,为阈值,S为查询数据集,xi为S中的样本):