论文地址:https://ieeexplore.ieee.org/document/8803104
源码地址:尚未开源
1 Key Idea
红外图像的标注很少,想要将大量带有bbox标注的彩色图像适应到红外域,以训练行人检测器。为了达到这个目的,将含有一对图像转换器的域自适应模块和红外域的行人检测器结合起来,并端到端地训练网络。图像转换器可以看成是一种数据增强的工具。为了辅助训练,作者介绍了一种在真实红外图像和合成红外图像之间定义的检测损失函数。
当前的问题是目标域内的bbox标注数量有限,DA机制用到了源域和目标域中无标注的数据,还不需要图像对进行空间校准。作者学习一对图像转换器,让图像在两种模态之间转换,还有一个行人检测器。图像转换器=数据增强+DA(渐进地修正合成出来的样本)
2 TRAINING PEDESTRIAN DETECTIOR IN THERMAL IMAGES DOMAIN
2.1 High-Level Overview
有一些用来训练的带标签的红外图像,还有一些没有标注的红外图像。本文的目标是训练一个红外图像域内的行人检测器
,将一幅崭新的(无标注的?)红外图像
映射为一组行人bbox
。假设有很多的带标注的彩色图像
。令
分别为所有彩色和红外图像的集合(无论有没有标注)。
2.2 Adversarial Data Adaptation
图像自适应部分有一对图像生成器以及
,它们分别将彩色(红外)图像转换成红外(彩色)图像。这些生成器通过欺骗彩色图像
和红外图像
的分类器,给检测任务增加了更多的真实图像。同时这些判别器努力地分辨出这些合成图像的真伪。令生成器
的参数分别为
。判别器
的从参数分别为
,1为真实图像/0为合成图像。辨别器要最大化CE loss,而生成器要最小化CE loss以confuse判别器。彩色和红外域的对抗损失函数为:
除此之外,作者还给生成器添加了循环一致性约束,换句话说,
丢到
后,再丢到
,循环生成出来的图像应该和起始图像差不多,因此所有的循环一致性损失为:
2.3 Pedestrian Detection in Thermal Images
作者通过最小化在每一张有标注红外图像上定义的平均检测损失函数来训练红外检测器,参数为
:
然后作者用带标注的彩色图像增强红外检测器的训练数据。一开始,将彩色图像
用
转变为伪-红外图像
;接下来将
连同
迁移到
,从而得到了一组具有关联行人bbox的合成红外图像
。在红外图像上定义的检测损失函数:
将真实的和合成的红外图像都喂进红外行人检测器,然后最小化总检测损失来训练:
2.4 Training Strategies
两种训练策略:
第一种是two-stage的:用不成对的彩色和红外图像(不带标注)训练域自适应模块一段时间,然后将合成数据和从原始图像中迁移过来的bbox标注混合,再加上真实的带标注的红外图像,做成一个训练检测器的混合数据集;
第二种是以迭代方式联合训练域自适应模块和行人检测模块的。和上一种方法不同的是检测模块的损失会把它的梯度后向传播到彩色-红外转换器,除此之外,合成红外图像也同时生成,并与真实热成像图一起训练检测模块。