前言
许多工作证明分类器在面对对抗攻击(adversarial attack)时是非常脆弱的,比如有一种对抗样本,它只对原图进行很轻微地修改,但是在视觉上与原图相比是完全不同的。因此也有很多工作致力于提升分类器的鲁棒性。
最近的一些工作发现,目标检测器也会由于蓄意设计的输入而受到攻击,如下图所示,展示了标准检测器和鲁棒性更强的检测器分别检测clean和adversarial图像的效果,可以看到,标准检测器在检测adversarial图像时,检测结果非常糟糕,而鲁棒性更强的检测器在检测adversarial图像时可以得到合理的检测结果。
由于目标检测在监控和自动驾驶上的重要性,找出能够使目标检测器免受各种对抗攻击的方法是非常重要的。虽然很多工作证明攻击检测器是可行的,但仍不清楚能否提升检测器的鲁棒性。本文通过将对抗训练框架从分类泛化到检测上,来提高目标检测器面对不同类型的攻击时的鲁棒性,并提出实现这一目标的可行方法。
本文的贡献如下:
- 对目标检测器的不同攻击进行分类与分析,找出它们的共同之处;
- 强调并分析了不同的任务损失函数之间的相互作用,以及它们对检测器鲁棒性的影响;
- 将对抗训练框架从分类泛化到检测上,提出一种对抗训练方法来处理任务损失函数之间的相互影响,以提升检测器的鲁棒性。
目标检测的任务损失函数
一个目标检测器将图像 x ∈ [ 0 , 255 ] n x \in [0,255]^n x∈[0,255]n作为输入,输出的是 K K K个检测到的目标,每个目标由 p k p_k pk和 b k b_k bk表示,即 f ( x ) → { p k , b k } k = 1 K f(x) \to \lbrace p_k,b_k \rbrace^K_{k=1} f(x)→{ pk,bk}k=1K,其中 p k p_k pk是对于 C C C个类别的概率向量, b k = [ x k , y k , w k , h k ] b_k=[x_k,y_k,w_k,h_k] bk