Fooling automated surveillance cameras: adversarial patches to attack person detection翻译

最新推荐文章于 2024-07-10 11:46:50 发布

i_soaring

最新推荐文章于 2024-07-10 11:46:50 发布

阅读量735

点赞数

文章标签：计算机视觉深度学习人工智能视觉检测图像处理

原文链接：https://ieeexplore.ieee.org/document/9025518/

版权

欺骗自动监控摄像头:对抗性补丁攻击人探测

摘要
过去几年，对机器学习模型的对抗性攻击引起了越来越多的兴趣。只要对卷积神经网络的输入进行细微的改变，网络的输出就会产生完全不同的结果。第一次攻击通过轻微改变输入图像的像素值来欺骗分类器输出错误的类。其他方法尝试学习“补丁”，可以应用到对象上，以欺骗检测器和分类器。其中一些方法也表明，这些攻击在现实世界中是可行的，例如，通过修改一个物体并用摄像机拍摄它。然而，所有这些方法的目标类几乎不包含类内部的变化(例如停止标志)。

然后用物体的已知结构在其上生成一个对抗性补丁。

在本文中，我们提出了一种生成对抗补丁的方法，针对具有大量类内变化的目标，即人。其目标是生成一个补丁，能够成功地将一个人从人体探测器中隐藏起来。例如，一种可以用来恶意绕过监控系统的攻击，入侵者可以在不被发现的情况下，在身体前面拿着一个小纸板，对准监控摄像头。

从我们的结果中，我们可以看到我们的系统能够显著降低人探测器的准确性。我们的方法在用摄像机拍摄补丁的现实场景中也能很好地发挥作用。据我们所知，我们是第一个尝试这种攻击的目标具有高水平的内部类别的多样性，如人。

adverserial patch

1 对抗性攻击

1.1 对分类器的数字攻击

改变图像的像素等来生成攻击；
生成可以数字化放置在图像上的补丁，以欺骗分类器
优化三维模型纹理的方法
生成单一通用图像的方法，可用于对不同图像进行串行扰动

1.2 对人脸识别和物体检测的现实攻击

打印眼镜的使用，可以用来欺骗面部识别系统
用于目标检测的现实世界攻击

但是所有针对对象检测器的攻击都集中在具有固定视觉模式的对象上（交通标志）而没有考虑类内多样性，如人。

目标检测器YOLO
①YOLOv2是完全卷积的，一个输入图像被传递到网络中，在这个网络中，各个层将它简化为一个输出网格，其分辨率是原始输入分辨率的32倍
②这个输出网格中的每个单元格包含五个预测(称为“锚点”)，其边界框包含不同的纵横比。
③每个锚点包含一个向量[x_offset, y_offset, w, h, p_obj, p_cls1, p_cls2，…, p_clsn]。
④x_offset和y_offset是边界框中心相对于当前锚点的位置，
⑤w和h是边界框的宽度和高度，
⑥p_obj是该锚点包含对象的概率，
⑦p_cls1到p_clsn是使用交叉熵损失学习到的对象的类分数
在这里插入图片描述

2 如何生成补丁

优化目标：
①L_nps：不可打印性评分[17]，这是一个因子，表示我们的补丁中的颜色可以用普通打印机表现的好坏。由:
在这里插入图片描述
其中，p_patch是补丁P中的一个像素，c_print是一组可打印颜色c中的一种颜色。这种损失有利于图像中与可打印颜色集中的颜色接近的颜色。
②L_tv：在[17]中描述的图像的总变化。这种损失可以确保我们的优化器偏爱具有平滑颜色过渡的图像，并防止噪声图像。我们可以通过patch P计算Ltv:
在这里插入图片描述
如果相邻像素相似，则得分较低，如果相邻像素不同，则得分较高。
③L_obj：图像中的最大物体度得分。我们补丁的目标是隐藏图像中的人。为此，我们训练的目标是最小化检测器输出的对象或类分数。这个分数将在本节后面深入讨论。
从这三部分中得出总损失函数:
在这里插入图片描述
我们将三种损失按经验确定的因子α和β的比例相加，并使用Adam[10]算法进行优化。

我们的优化器的目标是最小化总损失l。在优化过程中，我们冻结网络中的所有权重，只更改补丁中的值。补丁在进程开始时根据随机值进行初始化。

图3给出了如何计算对象损耗的概述。用同样的方法计算类概率。在本节的其余部分中，我们将深入解释如何做到这一点。
在这里插入图片描述

3.1 最小化检测器输出的概率

如第2节所述，YOLOv2对象检测器输出一个单元格网格，每个单元格包含一系列锚点(默认为5个)。每个锚点包含边界框的位置，一个对象概率和一个类得分。让探测器忽略我们鉴定的人，我们实验采用三种不同的方法:我们可以最小化类人的分类概率(例如图4d中的patch)，最小化对象性评分(图4c)，或者两者的结合(图4b和4a)。我们尝试了所有的方法。最小化班级分数会使班级的人转到另一个班级。

在我们使用在MS COCO数据集[11]上训练的YOLO检测器的实验中，我们发现生成的补丁被检测为COCO数据集中的另一个类。图4a和4b是类概率和对象概率乘积的一个例子，在图4a中，学习到的补丁最终像一个泰迪熊，它在视觉上也很像。班级的“泰迪熊”似乎压倒了班级的“人”。因为补丁开始类似于另一个类，但是，补丁很难转移到在不包含该类的数据集上训练的其他模型。

我们提出的另一种最小化对象评分的方法不存在这个问题。虽然我们在优化过程中只把它放在人的顶部，但最终的补丁对特定类的针对性不如其他方法。图4c显示了这样一个补丁的示例。

3.2 准备数据

与之前在停车标志上所做的工作相比[5,18]，为班级人员创建对抗补丁更具挑战性:
•人们的外观变化更多:衣服、肤色、尺寸、姿势……相比之下，停车标志通常都是相同的八角形，通常是红色的。

•人们可以出现在许多不同的情景中。停车标志大多出现在同一背景下的街道边上。

•一个人的外表会因人而异，当背对着镜头或对着镜头。

•一个人身上没有固定的地方可以贴补丁。在停车标志上，很容易计算出补丁的确切位置。

在本节中，我们将解释如何应对这些挑战。
首先，我们使用不同人的真实图像，而不是像在[5,18]中那样人为地修改目标物体的单一图像并进行不同的转换。我们的工作流程如下:
①我们首先在图像数据集上运行目标人员检测器。这将生成边界框，根据检测器显示人们出现在图像中的位置。
②在相对于这些边界框的固定位置上，然后将当前版本的补丁应用到不同转换下的图像上(详见3.3节)。
③然后将生成的图像(以批处理方式与其他图像一起)输入检测器。
④我们测量仍然被发现的人的分数，我们用它来计算损失函数。
⑤利用在整个网络上的反向传播，优化器进一步改变补丁中的像素，以便进一步欺骗检测器。

这种方法的一个有趣的副作用是，我们不局限于带注释的数据集。任何视频或图像集合都可以输入到目标检测器中生成边界框。这使得我们的系统可以进行更多的有针对性的攻击。当我们从目标环境获得可用数据时，我们可以简单地使用镜头生成特定于该场景的补丁。这大概会比通用数据集更好地执行。

在我们的测试中，我们使用Inria[6]数据集的图像。
这些图像更多地针对全身行人，这更适合我们的监控摄像头应用。我们承认有更具有挑战性的数据集，如MS COCO[11]和Pascal VOC[7]，但它们包含了太多的人出现的变化(例如一只手被注释为人)，使我们的补丁很难放在一致的位置。

3.3 增强补丁鲁棒性

在本文中，我们的目标是必须在现实世界中使用的补丁。这意味着它们首先被打印出来，然后用摄像机拍摄。当你这样做的时候，很多因素会影响贴片的外观：灯光会改变，贴片可能会轻微旋转，贴片相对于人的大小会改变，相机可能会添加噪音或轻微模糊贴片，视角可能会不同…为了尽可能地考虑到这一点，我们在将补丁应用到图像之前对其进行一些转换。我们进行以下随机变换：
①这个补丁每方向可旋转20度。
②随机放大和缩小补丁。
③随机噪声放在补丁上面。
④补丁的亮度和对比度随机变化
在整个过程中，需要注意的是，它必须保持计算所有操作的逆向梯度的可能性，一直到补丁。

3 评估补丁

在本节中，我们将评估补丁的有效性。我们通过将补丁应用到Inria测试集来评估补丁，使用的过程与我们在训练期间使用的过程相同，包括随机转换。在我们的实验中，我们试图最小化一些可能隐藏人的不同参数。

作为对照，我们还将我们的结果与一个包含随机噪声的补丁进行比较，该补丁的评估方法与我们的随机补丁完全相同。
在这里插入图片描述
图5显示了不同补丁的结果。OBJ-CLS的目标是最小化目标分数和班级分数的乘积，OBJ中只有目标分数，而CLS中只有班级分数。NOISE是我们随机噪声的控制补丁，CLEAN是没有应用补丁的基线。(因为边界框是通过在数据集上运行相同的检测器生成的，我们得到了一个完美的结果。)从这条pr曲线中，我们可以清楚地看到生成补丁(OBJ-CLS, OBJ和CLS)与作为对照的随机补丁相比的影响。我们还可以看到，与使用班级分数相比，最小化对象分数(OBJ)具有最大的影响(最低的平均精度(AP))。

确定用于探测的pr曲线上一个好的工作点的典型方法是在pr曲线(图5中的虚线)上面画一条对角线，并查看它与pr曲线的交点。如果我们对CLEAN pr曲线这样做，我们可以使用该工作点的结果阈值(在我们的例子中是0.4)作为参考，看看我们的方法将在多大程度上降低检测器的召回率。换句话说，我们会问这样一个问题:有多少监控系统产生的警报被我们的补丁所规避?表1显示了使用图5中的缩写的分析结果。从这里我们可以清楚地看到，使用我们的补丁(OBJ-CLS, OBJ和CLS)显著降低了产生的告警数量。

图6显示了应用于Inria测试集中的一些图像的补丁示例。我们首先在没有补丁(第一行)的图像上应用YOLOv2检测器，然后使用一个随机补丁(第2行)和我们生成的最佳补丁(OBJ(第3行)。在大多数情况下，我们的补丁能够成功地将人从检测器中隐藏起来。如果不是这种情况，则补丁没有对准人的中心。这可以解释为，在优化过程中，补丁也只位于由边界框决定的人的中心。

在这里插入图片描述
图7中我们测试一个打印版的patch在现实世界中有多管用。总的来说，这个补丁似乎运行得很好。由于补丁被训练在相对于边界框的固定位置上，将补丁保持在正确的位置似乎非常重要。演示视频可以在:https://youtu.be/ MIbFvK2S9g8找到。
在这里插入图片描述

4 总结

在本文中，我们提出了一个生成对抗补丁的系统，可以打印出来并在现实世界中使用的人探测器。我们通过优化图像来最小化探测器输出中与人的出现有关的不同概率。在我们的实验中，我们比较了不同的方法，发现最小化物体丢失可以创建最有效的补丁。

从我们使用打印出来的补丁进行的真实测试中，我们还可以看到我们的补丁在将人从物体探测器中隐藏起来方面工作得相当好，这表明使用类似探测器的安全系统可能容易受到这种攻击。

我们相信，如果我们将这种技术与复杂的服装模拟相结合，我们可以设计一种t恤印花，可以让一个人在自动监控摄像头(使用YOLO检测器)中几乎隐形。

5 未来工作

在未来，我们希望通过使它更健壮来扩展这项工作。一种方法是对输入数据进行更多的(仿射)转换或使用模拟数据(例如，将补丁作为一个人的3d模型的纹理)。另一个需要做更多工作的领域是可移植性。我们目前的补丁没有很好地转移到完全不同的架构，如Faster R-CNN[16]，同时优化不同的架构可能会在此基础上得到改进。