CamStyle
为了解决不同摄像头间存在的差异(环境、分辨率、光照)。
做法:首先为多个摄像头中的每一对摄像头训练一个风格迁移模型,然后利用给定的一批有标注训练样本(真图)经过训练好的模型,分别生成在其他每个摄像头上迁移后的图片(假图)。将真图和假图综合得到新的训练样本训练reid CNN。
实验结果:普通版本在面临少摄像头系统时能够防止过拟合,使模型性能提升;完全版本在面临多摄像头系统时,由于多摄像头本身出现过拟合的风险不大,因此本算法改善过拟合的效果就不明显,此时,模型性能的下降主要由迁移误差引起,因此在加入标签平滑(LSR)之后,性能提升。
优点:
1.在CycleGAN的基础上加入了目标域身份约束损失,保证了输出图片和输入图片在色彩上的一致性。
2.作为一种图片增广策略,增强了数据多样性,对目前的基于深度学习的reid模型性能提升上有帮助。
3.防止过拟合。
4.提升了不同摄像头间的鲁棒性。
5.没有人为额外地进行标注,缓解了昂贵的成本问题。
6.由于在风格迁移过程中存在误差(①CycleGAN没能对迁移过程完美建模②由于遮挡或者检测错误导致真图错误,经过CycleGAN后又会生成一批错误假图),会带来噪声,因此对假图计算LSR损失。
缺点:
需要为每对摄像头训练一个模型,当面临大规模数据集时,摄像头数目必然增多,可能出现成本问题。
而且可能无法充分利用所有训练样本,使生成图片质量不高(受StarGAN启发)。
PTGAN
为了解决①现有公开数据集中的图片和真实场景下采集到的图片间的差距和②域间距问题。
做法:利用CycleGAN的思想将源域的图片迁移到目标域。此时完成了风格的迁移,为了保证行人ID信息不被模糊,利用PSPNet提取行人前景mask(图像分割)。
优点:
1.采用图片级别的翻译代替直接对目标域样本进行标注,解决了昂贵的标注成本。
2.引入新的公开数据集MSMT17模拟真实场景。
3.缩小了域间差距。
缺点:
1.在计算损失函数时,没有考虑到目标域身份约束,可能使得输出图片与输入图片在色彩上存在差异。
2.在面临大规模数据集时,考虑到成本问题,没有将源域图片迁移到每个摄像头上,而是采用整体迁移,没能考虑到摄像头间的差异。
3.在处理多个域间的图片翻译问题时,需要为每队域训练一个模型,可拓展性和鲁棒性不高。此外,也没能充分利用所有训练数据,使得生成图片质量不高。
SPGAN
为了解决域间距问题。
做法:采用CycleGAN的思想将源域已经经过标注的图片迁移到目标域。在此基础上,采用SiaNet保证行人身份不变。
优点:
1.缓解了昂贵的标注成本问题。
2.缩小了域间距。
3.SiaNet拉近了迁移之后的图片与源域之间的距离,推远了和目标域之间的距离。
缺点:
(同PTGAN)在处理多个域间的图片翻译问题时,需要为每队域训练一个模型,可拓展性和鲁棒性不高。此外,也没能充分利用所有训练数据,使得生成图片质量不高。
StarGAN(待)
为了解决多个域间的图片翻译问题。
做法:将输入图片和每次随机产生的目标域标签输入到一个生成器中生成假图。
优点:
1.相比SPGAN、PTGAN,只使用了一个生成器,提升了可拓展性和鲁棒性。且能够利用到所有训练样本,使生成图片质量更高。
2.利用掩码向量的方法拼接多个拥有不同域的数据集,更好地进行图片翻译。