Memorization Discrepancy:利用模型动态信息发现累积性注毒攻击

本文分享阿里妈妈外投算法团队与香港浸会大学可信赖机器学习和推理组(HKBU TMLR Group)合作在理论与实践上探索外投广告媒体等复杂场景下应对噪声信号进行模型训练的问题。基于该项工作总结的论文已发表在ICML 2023,欢迎阅读交流。

▐ 摘要

近期研究表明,对抗性注毒攻击(Poisoning attack)对各类机器学习应用会构成巨大威胁 [1,2]。有别于之前研究所关注的线下注毒设定,累积性注毒攻击(accumulative poisoning attack)[3] 是最近提出的一种模拟线上实时数据流设定下进行注毒攻击的方法。通过利用两阶段不同的注毒样本生成投放,累积性注毒攻击能够优化第一阶段中注毒样本的不可辨别性,以此实现更为隐匿的注毒攻击。并且,能够将第一阶段中的注毒效果累积至第二个触发阶段,达到在短时间内大幅降低模型性能的效果。

41695baca24d5cfc0845541037c3478d.png
图1. 累积注毒攻击 [3] 的效果示意

考虑到线上模拟实时数据流的学习设定,之前基于线下注毒攻击的防御算法或数据层面的检测方法由于信息的缺失无法应对这种新型的注毒攻击方法。然而,现有可能的防御方法例如对抗训练变体 [4] 及梯度截断 [5] 会导致对注毒数据与干净数据有无差别或过度纠正,进而对机器学习模型的性能有所影响。由于对在线数据流的数据检测相对困难,我们考虑到是否可以从模型的动态变化中挖掘对发现注毒攻击有用的信息来识别这种隐匿的累积注毒攻击。基于此,我们在本项工作中:

  • 首次从模型动态变化的角度探索注毒攻击的发现;

  • 提出了一种新的信息评价指标,记忆性差异,利用模型动态变化尝试分辨不可见的注毒样本;

  • 基于新的信息评价指标提出了针对累积注毒攻击的防御学习算法。

接下来将简要地向大家分享我们近期发表在 ICML 2023 上的有关模型动态及注毒样本发现的研究结果,欢迎阅读交流。

论 文:Exploring Model Dynamics for Accumulative Poisoning Discovery

论文作者:Jianing Zhu, Xiawei Guo, Jiangchao Yao, Chao Du, Li He, Shuo Yuan, Tongliang Liu, Liang Wang, Bo Han

下 载:https://arxiv.org/abs/2306.03726

代码链接:https://github.com/tmlr-group/Memorization-Discrepancy

🔍 本期话题:本文中的方法采用了历史模型信息辅助检测潜在的有害样本,是否有方法能够替代历史模型或减少它带来的存储开销呢?欢迎大家留言参与讨论~ 

🎁 互动惊喜:参与话题讨论将有机会获得阿里妈妈技术限量周边;)

1. 回溯历史模型

本文沿着累积注毒攻击 [3] 的实验设定,我们考虑在基准数据集上预训练到一定阶段的模型(例如图1中的Burn-in phase),在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值