EdgeNet：低成本、大幅提升视觉分类鲁棒性！悉尼大学华人团队发布

最新推荐文章于 2025-04-28 22:11:52 发布

机器学习与AI生成创作

最新推荐文章于 2025-04-28 22:11:52 发布

阅读量559

点赞数 1

文章标签：分类数据挖掘人工智能机器学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247501944&idx=2&sn=f20fa7b91e0d94f4a3244e53dfd179f5&chksm=fff14145bfa28135ae6192771e419460f0417b3229230f607e57dc284b2665d32bb67dd9c0ed&scene=126&sessionid=0

版权

本文来源新智元编辑：LRS

【新智元导读】EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘，产生鲁棒的特征，具有轻量级、即插即用等特点，能够无缝集成到现有的预训练深度网络中，训练成本低。

在深度神经网络时代，深度神经网络（DNNs）在视觉分类任务中展现出了卓越的准确性。然而，它们对额外噪声，即对抗性攻击，表现出了脆弱性。先前的研究假设这种脆弱性可能源于高准确度的深度网络过度依赖于与纹理和背景等无关紧要且不鲁棒的特征。

最近的AAAI 2024学术会议上，悉尼大学的研究人员们揭示了「从图像中提取的边缘信息」能够提供与形状和前景相关的相关性强且鲁棒的特征。

论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/28110

这些特征在帮助预训练深度网络改善对抗鲁棒性的同时，还不影响其在清晰图像上的准确性。

作者们提出了一种轻量级且即插即用的EdgeNet，可以无缝集成到现有的预训练深度网络中，包括Vision Transformers （ViTs），这是最新一代用于视觉分类的先进模型家族。

EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘，产生鲁棒的特征，可以注入到预训练好并被冻结的的骨干深度网络的中间层。

值得注意的是，这种方法带来的额外成本极低：使用传统的边缘检测算法（例如文中所用的 Canny 边缘检测器）获取这些边缘的成本与深度网络的推理成本相比微乎其微；而训练EdgeNet 的成本则与使用诸如 Adapter 等技术对骨干网络进行微调的成本不相上下。

EdgeNet 架构

为了将图像中的边缘信息注入到预训练的骨干网络中，作者引入了一个名为 EdgeNet 的侧支网络。这个轻量级、即插即用的侧枝网络可以无缝地集成到现有的预训练深度网络中，包括像 ViTs 这样的最新模型。

EdgeNet 通过处理从输入图像中提取的边缘信息运行。这个过程产生了一组具有鲁棒性的特征，可以被选择性地注入到预训练好并被冻结的骨干深度网络的中间层。

通过注入这些鲁棒特征，能够提升网络在防御对抗性扰动方面的能力。同时，由于骨干网络是被冻结的，而新特征的注入是有选择性的，所以可以保持预训练网络在识别未经扰动的清晰图像方面的准确性。

如图所示，作者在原有的构建块基础上，以一定间隔 N 插入新的 EdgeNet 构建块。新的中间层输出可以由以下公式表示：

EdgeNet 构建块

为了实现选择性特征提取和选择性特征注入，这些 EdgeNet 构建块采取了一种“三明治”结构：每个块的前后都添加了零卷积（zero convolution）来控制输入与输出。在这两个零卷积之间是一个具有随机初始化的、与骨干网络架构相同的 ViT block

利用零输入，充当提取与优化目标相关信息的过滤器；利用零输出，充当确定要集成到骨干中的信息的过滤器。此外，通过零初始化，可以确保了骨干内的信息流保持不受影响。因此，对 EdgeNet 的后续微调变得更加简化。

训练目标

在训练 EdgeNet 的过程中，预训练好的 ViT 骨干网络除了分类头均被冻结住，不进行更新。优化目标仅专注于为边缘特征引入的 EdgeNet 网络，以及骨干网络内的分类头。在这里，作者采用了一个非常简化的联合优化目标以保障训练的效率：

在公式 9 中，α 是准确性损失函数的权重，β 是鲁棒性损失函数的权重。通过调整 α 和 β 的大小，可以微调 EdgeNet 训练目标的平衡性，以达到在提升其鲁棒性的同时不显著损失准确性的目的。

实验结果

作者们在 ImageNet 数据集上针对两大类鲁棒性进行了测试。

第一类是抵御对抗攻击的鲁棒性，包括白盒攻击与黑盒攻击；

第二类是抵御一些常见的扰动的鲁棒性，包括 ImageNet-A 中的自然对抗样本（Natural Adversarial Examples），ImageNet-R 中的分布外数据（Out-of-Distribution Data）和 ImageNet-C 中的常见数据扭曲（Common Corruptions）。

作者还针对不同扰动下提取到的边缘信息进行了可视化。