Memorization Discrepancy：利用模型动态信息发现累积性注毒攻击

阿里妈妈技术

于 2023-09-20 19:00:40 发布

阅读量135

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/alimama_Tech/article/details/134279825

版权

本文分享阿里妈妈外投算法团队与香港浸会大学可信赖机器学习和推理组（HKBU TMLR Group）合作在理论与实践上探索外投广告媒体等复杂场景下应对噪声信号进行模型训练的问题。基于该项工作总结的论文已发表在ICML 2023，欢迎阅读交流。

▐ 摘要

近期研究表明，对抗性注毒攻击（Poisoning attack）对各类机器学习应用会构成巨大威胁 [1,2]。有别于之前研究所关注的线下注毒设定，累积性注毒攻击（accumulative poisoning attack）[3] 是最近提出的一种模拟线上实时数据流设定下进行注毒攻击的方法。通过利用两阶段不同的注毒样本生成投放，累积性注毒攻击能够优化第一阶段中注毒样本的不可辨别性，以此实现更为隐匿的注毒攻击。并且，能够将第一阶段中的注毒效果累积至第二个触发阶段，达到在短时间内大幅降低模型性能的效果。

图1. 累积注毒攻击 [3] 的效果示意

考虑到线上模拟实时数据流的学习设定，之前基于线下注毒攻击的防御算法或数据层面的检测方法由于信息的缺失无法应对这种新型的注毒攻击方法。然而，现有可能的防御方法例如对抗训练变体 [4] 及梯度截断 [5] 会导致对注毒数据与干净数据有无差别或过度纠正，进而对机器学习模型的性能有所影响。由于对在线数据流的数据检测相对困难，我们考虑到是否可以从模型的动态变化中挖掘对发现注毒攻击有用的信息来识别这种隐匿的累积注毒攻击。基于此，我们在本项工作中：