2018年的CVPR[1],作者使用GAN做了摄像机风格迁移的数据扩充,来解决不同摄像机下照片风格变化的问题,同时使用了标签平滑正则化方法解决了其中的噪声问题和过拟合问题,实验表明文章提出的方法有效的提高了ReID的表现,也是开了GAN做ReID摄像机风格迁移的头。
论文一览:
痛点
ReID作为跨摄像头检索的任务,摄像机风格变化当然是不可避免的。为了解决这个痛点,文章使用GAN网络来完成摄像机风格的迁移,并将迁移后的生成数据用于数据扩充,来抹平摄像机风格的变化带来的干扰,迫使网络注意识别对象本身,同时作为一种数据扩充,也能够起到正则化作用,对抗CNN的过拟合问题,最终提高了ReID任务的表现。
数据扩充本身也会带来加噪的问题,作者认为噪声产生原因主要有:1)CycleGAN不能完美地模拟风格迁移过程,因此在图像生成过程中会发生错误。2)由于遮挡和检测错误,真实数据中存在噪声样本,将这些噪声样本转换为伪数据可能会产生更多的噪声样本。作者因此采用了标签平滑正则化label smooth regularization (LSR)方法解决这个问题,使任务有一个总体的提高。
同时GAN也是一种无监督的方法,这对于标注信息昂贵的ReID领域,文章提出的方法不需要人工或算法标注,是一个不错的数据扩充方案。
market1501数据集的风格迁移如下:
模型
CycleGAN结构示意图如下:
假设我们要处在A域斑马的图像,风格转换为B域的野马,斑马图像经过生成器 G A B G_{AB} GAB得到生成的假图像,假图像和一个B域野马的图像输入给判别器 D s D_{s} Ds进行判别是否是真野马还是假野马的图像,这里有一个判别损失使得能够判断这张图片到底是真野马还是假野马,到此为止网络还是一个正常的GAN。
然后之前B域野马的假图像,再输入一个生成器 G B A G_{BA} GBA,使假图像能够还原为A域斑马的风格,这个还原图像与A域斑马的真图像有一个生成损失的监督(这里用L2 loss),保证还原图和A域斑马的真图像相似。CycleGAN一共有两个生成器两个判别器,生成器分别生成风格迁移图像和还原图像,判别器分别判别风格迁移图像是真还是假,和判别还原图像是真还是假。
文章提供的CycleGan总loss如下:
其中G为A->B域转换的映射,F为B->A域转化的映射,
D
B
D_{B}
DB和
D
A
D_{A}
DA分别是A B域判别真假的判别器,
V
G
A
N
(
D
B
,
G
,
A
,
B
)
V_{GAN} (D_{B},G,A,B)
VGAN(DB,G,A,B)和
V
G
A
N
(
D
A
,
F
,
B
,
A
)
V_{GAN} (D_{A},F,B,A)
VGAN(DA,F,B,A)分别是B域判别器和跨域生成器的loss和A域判别器和跨域生成器的loss。
V
c
y
c
(
G
,
F
)
V_{cyc} (G,F)
Vcyc(G,F)是循环一致性损失,保证A域真图像生成B域再生成A域后与真图片相似,保证B域真图像生成A域再生成B域后与真图片相似,即能够还原回原图像。参数λ用来平衡不同loss的权重。
模型流程如下:
其中绿色方框是真实图片,蓝色方框是生成的风格迁移图片,GAN使用了经典的CycleGAN,生成的数据label可以直接使用风格迁移以前的原图像的label。
生成的图片和真实图片一起送入CNN加入训练。最后的loss由交叉熵损失和标签平滑正则化(LSR)损失分别处理于真实图像和风格迁移的图像。LSR对真实标签的信任度较低,而对其他类别的权重较小。每个风格迁移图像重新分配的标签分布可以表示为:
其中 ϵ \epsilon ϵ是一个介于0到1之间的常数,当 ϵ \epsilon ϵ为0时,LSR降维成了:
根据LSR,交叉熵损失被重新定义为了:
对于真图像不需要用LSR(毕竟本来就是真的),对于风格迁移图像,则设置
ϵ
\epsilon
ϵ=1,有
作者谈到了在[2]中使用了LSRO平均分配了标签,而本文因为不至于完全不信任label,所以只给一部分不可靠数据给一个小的不信任比重。
生成本文方法的图像和DCGAN生成的图像对比如图5:
可见本文的方法生成的图像更加鲁棒,更接近真实数据。
实验
tSNE的可视化如下图4:
同色的为同一个id,圆形的为真样本,三角形为假样本(生成样本),可以看到假样本经常和真样本在一起,撑得起数据增广的效用。但是仍然会出现假样本的干扰点被错分类(红色方框内),这就需要LSR来处理。
真样本和假样本训练数量的比例,对结果的影响:
baseline与使用了CamStyle和LSR的分离试验对比,以及不同数据集下使用了摄像机数量的对比:
可以看到CamStyle+LSR有普遍意义上的提高。
对真数据和假数据使用的loss的分离试验对比:
”
可以看到对真数据使用交叉熵loss,对假数据使用LSR loss,效果是最好的。
对风格迁移的摄像头数量的分离试验:
当然是风格迁移的摄像头越多越好。
与其他数据增强方法的兼容性试验:
其中RE是Random Erasing,RF+RC是:random flip+random crop,都是常用的数据增强方法。可以看到CamStyle都可以完美兼容其他数据增强方法。
在Market1501上的SOTA试验:
在Duke上的SOTA试验:
参考文献
[1] Zhong Z, Zheng L, Zheng Z, et al. Camera style adaptation for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5157-5166.
[2] Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017.