20230504论文阅读 Adversarial Examples for Handcrafted Features_hand-crafted features cnn injection-CSDN博客

本文链接：https://blog.csdn.net/panmeng1/article/details/130495185

这篇论文在SLAM攻击论文：Perceptual Aliasing++中被引用了，被引用也没啥，最重要作者是这样引用的：In our previous work, we proposed adversarial attack on handcrafted features [31].所以来读一下，根据这句推测是手工设计的特征在视觉SLAM中的对抗攻击。

摘要

对抗样本在CNN上效果显著，但是手工设计的特征很少在对抗样本中研究。本文我们就进行了这样的研究。对手工制作功能的像素级分析显示，简单的修改会大大降低其性能。这些扰动概括为不同的特征、视点和照明变化。本文在几个著名的算法上进行了广泛的实验。

1. 引言

作者引言第一句用了一个问句，在什么领域是深度特征表现不是最好的，令人意想不到的是，image registration竟然在这些领域中。也许缺乏适当的训练数据是这种异常滞后背后的原因，标记兴趣点比标记对象要tedious繁琐得多，例如，与整个数据集中的一千个对象实例相比，单个图像上可能有一千多个兴趣点。
近来对抗样本在欺骗深度系统上出现了很多工作。视觉里程估计是移动物体用到的基本方法，这种方法依赖手工特征，本文主要研究手工特征的对抗样本。
一个方法是了解对抗样本在DNN上的生成过程，关键是，DNN具有可导性，但是手工设计的特征是完全不可导的。兴趣点流程使用直接像素值，例如，边缘是两个相邻像素之间的简单差异。是否可以稍微修改像素并获得完全不同的兴趣点输出。
本文我们我们了像素级的见解，揭示了这些手工制作的管道的弱点。
在这里插入图片描述
使用SURF匹配，原图可以获得1463个匹配，然而添加我们的对抗噪声后，只能得到116个匹配。
本文贡献：

This work is the first attempt, to the best of our knowledge, to demonstrate adversarial examples for handcrafted features in context of natural scenes.
我们的对抗性噪声概括了不同的局部特征、视点和照明，并取得了不同程度的成功
在图像匹配，SLAM，sfm等几个任务上进行了测试，得到了不同程度的攻击成功率。

2. 相关工作

略

3. 像素级别上对于手工特征的观察

当一个特征被检测到并且它和周围的像素被添加扰动后，会如何影响手工特征呢。答案很tricky棘手，因为这一切都取决于被扰动的补丁周围的像素，特征有可能从原位置上完全消失，但是也有可能仍然被检测到。但是这并不表明扰动没有影响到特征。作者将攻击成功分为两种，一种是之前检测到，现在检测不到的特征，另外一种是现在依然能检测到，但是描述符匹配不上。检测到并且能匹配到的就是攻击不成功了。如下图所示：在这里插入图片描述
作者提到最好的攻击成功率在Harris角点检测上达到了99%。

4. 对抗噪声的建模

分为三组：高斯模糊，修复扰动，离散扰动。

4.1 高斯模糊

大部分手工特征都利用了图像的梯度，任何平滑滤波器都能干扰到局部的梯度和特征。我们选择了不同尺寸的高斯模糊和sigma值。实验表明，高斯模糊大大降低了图像质量，并且无法显著欺骗大多数特征。

4.2 修复扰动

使用修复图像孔洞的Image Inpainting 来生成对抗噪声。

4.2.1 均方掩码扰动

在这里插入图片描述

4.2.2 SURF主方向扰动

在这里插入图片描述

4.3 离散扰动

作者又设计了几种依赖局部平均的扰动，这种平均，显著地影响局部梯度同时保持了低失真。

4.3.1 pixel to pixel扰动

这种扰动的设计是为了影响patch中在特征周围的每个像素
$p_{i,j}= \frac{p_{i,j-1}+p_{i-1,j}}{2}$

4.3.2 Pixel-2-Pixel-Scattered (PPS) Perturbation

4.3.3 Block-2-Block (B2B) Perturbation

4.3.4 Scale-specific Perturbation for SURF

这几种扰动就不细看了，看看后面实验吧。

5. 实验

主要关注两个指标，一个是算法的退化效果，另外一个是图像质量的退化效果，使用SSIM和PSNR。指标越高代表不可感知性越强。Image registration使用HPatches 数据集，包含116个不同环境不同视角，光照的变化。视频任务上使用了TUM RGB-D数据集。作者仍然放出了代码，不得不说，巴基斯坦老铁们做事还是很地道的，最近读的两篇论文都有代码！