A Comprehensive Defense Framework Against Model Extraction Attacks 模型窃取攻击防御

模型窃取攻击防御《A Comprehensive Defense Framework Against Model Extraction Attacks》 来自 IEEE TDSC 2023

最近的研究表明,机器学习即服务中的预训练模型很容易受到模型窃取攻击的威胁。如图所示,攻击者使用恶意构造的查询样本来不断查询受害者模型,以获得回复的结果。然后利用这些(查询-回复)集合作为训练集来重建一个与原始模型(也称为受害者模型)功能相似的替代模型

提出了全面高效的模型窃取攻击防御框架AMAO:在训练阶段施加对抗训练以获得更鲁棒的模型,并削弱模型窃取攻击的效果,导致攻击者需要提交更多的恶意查询才能达到预期的攻击目标。在这之后,恶意查询检测用来检测和识别恶意查询并标记恶意用户。然后,针对恶意用户,防御者采用自适应回复策略,用添加了扰动的结果回复恶意用户。这些扰动的结果不仅可以减弱模型窃取攻击的效果,还可以为后续的模型所有权验证步骤做准备。最后,模型所有权验证可以通过(扰动的样本-标签)集合进行验证。AMAO在模型的每个阶段都有相应的防御措施,各个阶段能够相互促进,并达到最佳的整体防御能力。

靠近决策边界的样本产生的信息量更大。 因此许多模型窃取攻击采用对抗样本作为合成样本,因为对抗样本往往接近决策边界,在窃取受害者模型时具有更多的信息量。
对抗训练使黑盒敌手更难产生接近受害者模型决策边界的合成样本。

基于最优停止理论的标签翻转攻击来指导适应性回复: 防御者可以被视为标签翻转攻击的敌手,其目标是选择最佳的中毒样本来翻转标签,从而降低替代模型的性能。具体策略:首先观察前𝑀/𝑒−1个查询,并不选择它们。在接下来的𝑀−𝑀/𝑒+1个查询中。如果任何一个查询的置信度差距大于前𝑀/𝑒−1个查询的最大置信度差距,则该查询被选中进行标签翻转

最后就是模型所有权验证步骤

对于每个恶意用户,防御者维护一个扰动的结果集𝑊𝑖 (𝑖=1,2,…,𝑛)W_i  (i=1,2,…,n)也称为水印集。以存储查询及对应的扰动的预测结果对于可疑模型𝑓𝑠f_s,对每一个水印集𝑊𝑖W_i,防御者计算已验证的水印结果占该水印集总数的比例,其中水印的结果𝑥𝑗𝑖,𝑦𝑗𝑖(x_j^i,y_j^i )被验证是指𝑓𝑠𝑥𝑗𝑖=𝑦𝑗𝑖f_s (x_j^i )=y_j^i。如果验证比例高于设定的阈值𝜏τ,则该模型被认定为是通过模型窃取而得的非法模型。

实验部分略

  • 9
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值