中科大刘淇教授团队CVPR'2023作品 | 基于因果启发的后门攻击防御

点击蓝字

6aaf000f9f9f25b5faa4504be6640e5f.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

点击“阅读原文”跳转到02:13可以查看回放哦!

c1ec102256729957761f638e3e4a16cc.png

Title: Backdoor Defense via Deconfounded Representation Learning

Paper: https://arxiv.org/pdf/2303.06818v1.pdf

Code: https://github.com/zaixizhang/CBD

导读

本文为大家介绍中国科学技术大学刘淇教授团队发表于CVPR'23上的一篇工作,作者通过另辟蹊径,从因果的角度出发,提出一种新颖的可以直接从污染数据集中学习到backdoor-free模型的方法CBD, 在降低攻击成功率和提升计算效率等方面优于已有的相关防御方法。此外,通过在多个基准数据集上进行的广泛实验,针对6种最先进的攻击方式验证了我们提出的CBD在减少后门威胁的同时,仍能在预测良性样本时保持高准确性。进一步的分析表明,CBD还可以抵抗潜在的自适应攻击。

动机

深度神经网络(DNNs)最近被发现容易受到后门攻击的影响。攻击者通过向训练数据集中注入一些有毒样本,嵌入隐藏的后门(backdoor)于DNN模型中。尽管研究者们已经做了大量的努力来检测和清除后门,但仍不清楚是否可以直接从污染数据集中直接训练得到一个无后门(backdoor-free)的干净模型。

在本文中,我们首先构建一个因果图来模拟污染数据的生成过程,并发现后门攻击作为混淆因子(Confounder),会在输入图像和目标标签(target label)之间带来虚假的关联,使模型的预测变得不可靠。在因果推理的启发下,我们提出了基于因果的后门防御(Causality-inspired Backdoor Defense),学习去除混淆因子的表征(Deconfounded representation),以实现可靠的分类。具体来说,我们故意训练一个后门模型来捕获混淆效应,另一个干净模型则致力于通过最小化与后门模型的混淆表征之间的互信息和采用逐个样本加权方案来学习因果关系。

方法

f74b2b4445deacdfacfc8eac8e59dbdf.png

受因果推断的启发,我们首先构建因果图来分析基于污染的后门攻击。上图中(a)是后门攻击的示意图,(b)是构建的因果图。在因果图中,我们用节点表示抽象的数据变量( 表示输入图像, 表示标签, 表示后门攻击),有向边表示它们之间的关系。如图 (b) 所示,除了 对 的因果作用 () 外,后门攻击者还可以在图像上附加触发图案trigger () 并将标签更改为目标标签 ()。因此,作为 和 之间的一个混淆因素,后门攻击 打开了虚假路径 (令 表示图像被污染, 表示图像是干净的)。我们所谓的“虚假”指的是这条路径在从 到 的直接因果路径之外,使 和 出现虚假的相关性,并在触发模式被激活时产生错误的影响。深度神经网络很难区分虚假相关性和因果关系。因此,直接在可能被污染的数据集上训练深度神经网络存在被后门攻击的风险。

根据后门攻击更容易被学习到的特点,我们设计了两阶段的防御方法:我们故意训练一个后门模型来捕获后门攻击的虚假相关性,另一个干净模型则致力于学习因果关系。CBD的模型图如下所示:

c0d8b8f88052f8ba1ba56a3d22c9f897.png

首先,我们把 的训练目标通过互信息的形式表达出来:

8bd2154d56193af32f46c2ce6ef0cae9.png

其中前两项构成了信息瓶颈information bottleneck,使得可以尽量学习到简洁的表示。最后一项则是使得 和在嵌入空间中的表示区分开来(最小化互信息), 使得学习因果的关系。我们通过WGAN来近似计算最后一项。经过一些列化简和推导,我们得到最终的损失函数:

e163b7b94c720dd6319c5945b9547815.png

值得注意的是,我们使用加权的交叉熵损失函数来提升训练效果,权重是:

43e20e8c1c126fac606dc1ebfc9697e4.png

下面是CBD训练的伪代码,T1一般设置为5个epoch, 以区分backdoor和正常的因果关系:

06cd82c920c165077cd65d644004a754.png

实验

3edce92ef3baaed9f7a89265e1b54e3c.png

如上图所示,可以明显看出本文方法在多个数据集和6种常用的backdoor攻击下,都可以取得优越的防御效果。

总结

受因果推断视角的启发,本文提出了Causality-inspired Backdoor Defense, CBD来学习去混淆表示以进行可靠的分类。针对6种最先进的后门攻击进行的广泛实验,充分展示了CBD的有效性和鲁棒性。此外,该工作开辟了一个有趣的研究方向,即利用因果推断来分析和抵御机器学习中的后门攻击。未来可能的工作包括将CBD扩展到其他领域,包括图学习、联邦学习和自监督学习,欢迎大家follow。

往期精彩文章推荐

d9408353c0a5162694efcff44b90f58d.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1000多位海内外讲者,举办了逾550场活动,超600万人次观看。

54cf27c83974571de28bfc30de0faabc.png

我知道你

在看

~

4d173ca3f05a03f623f72df8da4357ee.gif

点击 阅读原文 查看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值