中科大刘淇教授团队CVPR‘2023作品 | 基于因果启发的后门攻击防御

最新推荐文章于 2024-09-09 22:19:37 发布

CVHub

最新推荐文章于 2024-09-09 22:19:37 发布

阅读量497

点赞数

分类专栏：对抗攻击文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/CVHub/article/details/130253310

版权

对抗攻击专栏收录该内容

1 篇文章 0 订阅

订阅专栏

欢迎关注『CVHub』官方微信公众号！

Title: Backdoor Defense via Deconfounded Representation Learning

Paper: https://arxiv.org/pdf/2303.06818v1.pdf

Code: https://github.com/zaixizhang/CBD

导读

本文为大家介绍中国科学技术大学刘淇教授团队发表于CVPR'23上的一篇工作，作者通过另辟蹊径，从因果的角度出发，提出一种新颖的可以直接从污染数据集中学习到backdoor-free模型的方法CBD, 在降低攻击成功率和提升计算效率等方面优于已有的相关防御方法。此外，通过在多个基准数据集上进行的广泛实验，针对6种最先进的攻击方式验证了我们提出的CBD在减少后门威胁的同时，仍能在预测良性样本时保持高准确性。进一步的分析表明，CBD还可以抵抗潜在的自适应攻击。

动机

深度神经网络(DNNs)最近被发现容易受到后门攻击的影响。攻击者通过向训练数据集中注入一些有毒样本，嵌入隐藏的后门(backdoor)于DNN模型中。尽管研究者们已经做了大量的努力来检测和清除后门，但仍不清楚是否可以直接从污染数据集中直接训练得到一个无后门(backdoor-free)的干净模型。

在本文中，我们首先构建一个因果图来模拟污染数据的生成过程，并发现后门攻击作为混淆因子(Confounder)，会在输入图像和目标标签(target label)之间带来虚假的关联，使模型的预测变得不可靠。在因果推理的启发下，我们提出了基于因果的后门防御(Causality-inspired Backdoor Defense)，学习去除混淆因子的表征(Deconfounded representation)，以实现可靠的分类。具体来说，我们故意训练一个后门模型来捕获混淆效应，另一个干净模型则致力于通过最小化与后门模型的混淆表征之间的互信息和采用逐个样本加权方案来学习因果关系。

方法

受因果推断的启发，我们首先构建因果图来分析基于污染的后门攻击。上图中(a)是后门攻击的示意图，(b)是构建的因果图。在因果图中，我们用节点表示抽象的数据变量（ $X$ 表示输入图像， $Y$ 表示标签， $B$ 表示后门攻击），有向边表示它们之间的关系。如图 (b) 所示，除了 $X$ 对 $Y$ 的因果作用 ( $\rightarrow Y$ ) 外，后门攻击者还可以在图像上附加触发图案trigger ( $\rightarrow X$ ) 并将标签更改为目标标签 ( $\rightarrow Y$ )。因此，作为 $X$ 和 $Y$ 之间的一个混淆因素，后门攻击 $B$ 打开了虚假路径 $\leftarrow B \rightarrow Y$ （令 $B = 1$ 表示图像被污染， $B = 0$ 表示图像是干净的）。我们所谓的“虚假”指的是这条路径在从 $X$ 到 $Y$ 的直接因果路径之外，使 $X$ 和 $Y$ 出现虚假的相关性，并在触发模式被激活时产生错误的影响。深度神经网络很难区分虚假相关性和因果关系。因此，直接在可能被污染的数据集上训练深度神经网络存在被后门攻击的风险。

根据后门攻击更容易被学习到的特点，我们设计了两阶段的防御方法：我们故意训练一个后门模型 $f_B$ 来捕获后门攻击的虚假相关性，另一个干净模型 $f_C$ 则致力于学习因果关系。CBD的模型图如下所示：

首先，我们把 $f_C$ 的训练目标通过互信息的形式表达出来：

其中前两项构成了信息瓶颈information bottleneck，使得 $f_C$ 可以尽量学习到简洁的表示。最后一项则是使得 $f_C$ 和 $f_B$ 在嵌入空间中的表示区分开来(最小化互信息), 使得 $f_C$ 学习因果的关系。我们通过WGAN来近似计算最后一项。经过一些列化简和推导，我们得到最终的损失函数：

值得注意的是，我们使用加权的交叉熵损失函数来提升训练效果，权重是：

下面是CBD训练的伪代码，T1一般设置为5个epoch, 以区分backdoor和正常的因果关系：

实验

如上图所示，可以明显看出本文方法在多个数据集和6种常用的backdoor攻击下，都可以取得优越的防御效果。

总结

受因果推断视角的启发，本文提出了Causality-inspired Backdoor Defense, CBD来学习去混淆表示以进行可靠的分类。针对6种最先进的后门攻击进行的广泛实验，充分展示了CBD的有效性和鲁棒性。
此外，该工作开辟了一个有趣的研究方向，即利用因果推断来分析和抵御机器学习中的后门攻击。未来可能的工作包括将CBD扩展到其他领域，包括图学习、联邦学习和自监督学习，欢迎大家follow。

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！欢迎添加小编微信号: cv_huber，备注"CSDN"，加入 CVHub 官方学术&技术交流群，一起探讨更多有趣的话题！

CVHub

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
中科大刘淇教授团队CVPR‘2023作品 | 基于因果启发的后门攻击防御

受因果推断视角的启发，本文提出了来学习去混淆表示以进行可靠的分类。针对6种最先进的后门攻击进行的广泛实验，充分展示了CBD的有效性和鲁棒性。此外，该工作开辟了一个有趣的研究方向，即利用因果推断来分析和抵御机器学习中的后门攻击。未来可能的工作包括将CBD扩展到其他领域，包括图学习、联邦学习和自监督学习，欢迎大家follow。如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！
复制链接

扫一扫