论文阅读:《Unity Style Transfer for Person Re-Identification》

与传统意义上的风格迁移不同,用于Re-ID的风格迁移更像是对一组图库统一风格的描述。之前已经有如DiscoGAN和CycleGAN的工作,这篇论文在二者的基础上更进一步,结合了二者的优点,使得该模型能生成稳定的相机风格化图片,从而实现数据增强的目的。

1.motivation

行人再识别(Re-ID)是给定一组目标人物,从多摄像头的数据库中查找目标的任务。但是不同摄像头得到的数据受时间,光照,天气等影响,会产生较大的差异,为目标查询带来困难。对于该问题,我们可以将不同相机得到的图像视为不同的风格,从而引入了风格迁移领域的GAN方法。
但是之前的CycleGAN生成的图像存在图像伪影,噪声以及对于不同风格要分别匹配的问题,文章提出了一种均一化风格的方法,即通过UnityGAN生成具有统一相机风格的图像。
在这里插入图片描述
与cycle每种相机风格都单独进行风格化不同,unity将所有相机风格迁移到了相近的区域,即所谓的unitystyle
如图
使用UnityGAN之后,原本和query图像风格不一样的gallery图片变成了和query一样相机风格的图片

2.model

与CycleGAN类似,对于两个图片域X,Y模型要分别得到两个映射G和F分别实现从X–>Y和从Y–>X的图片映射关系。其中X和Y可以认为是不同相机中不同风格的图像库。

2.1 UnityGAN在这里插入图片描述
其中UnityGAN在CycleGAN的基础上增加了IBN模块以及self-attention模块,同时增加了级联操作。都是为了保证转换后原图像特征的有效性以及获取一致性的风格。

2.2 IBN-NET
IBN-NET包括Instance Normalization (实例正则化)Batch Normalization (批正则化)
在这里插入图片描述
在特征抽取的过程中,浅层特征主要体现图像的色彩等风格信息,深层特征则是更多的细节和形状信息。浅层的IN可以提升模型对不同风格的鲁棒性。(在CHEN TQ的通过style patch实现任意风格转换的文章中有验证)BN则会使模型对于图像内容特征更敏感。再加上残差块的级联操作(不知道是直接加还是进行点积等操作)使得源图像的内容信息更多被保留下来。

2.3 style attention
在这里插入图片描述
多个来自不同相机的图片输入到UnityGAN中,在训练阶段,从IBN层提取特征,进行style attention的操作,并以此做为损失函数的一部分,保证风格的一致性。训练时,所有图片都输入,而生成器则为输入图像生成具有Unity Style的对应图像。

2.4 loss function
在这里插入图片描述
损失函数包括四部分:标准GAN损失,特征匹配损失,标识映射损失,循环重构损失。其中循环重构损失又包括两部分:L1 loss
在这里插入图片描述
和Lss loss

其中标识映射损失在这里插入图片描述
在这里插入图片描述
SLN是损失标准化,

对于style attention module,其损失形式如下
在这里插入图片描述在这里插入图片描述
最终损失函数的形式如下
在这里插入图片描述
c是相机数量,i是第i种相机风格
在这里插入图片描述
w_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjE5NzYwMQ==,size_16,color_FFFFFF,t_70)
上图是有无style attention module的区别,可以发现前者转换后的风格仍不能统一

2.5 Deep Re-ID Model
目前已经有许多优秀的深度Re-ID模型,如IDE, PCB和 st-ReID 。本文中的方法是基于IDE的。
在这里插入图片描述
将原模型中的分类层改为两个相邻的全连接层(why?)。在测试阶段,使用Resnet输出的2048维特征进行评估,计算mAP(平均精度均值)和top-K.(mAP:多个类别目标检测中,每个类别都可以根据recall(召回率)和percision(准确率)绘制一条曲线。AP就是该曲线下的面积,mAP意思是对每一类的AP再求平均。)

3.Training

我们将训练集真实图像对应的unitystyle图像作为增强数据集,在训练过程中使用。增强数据集作为输入,大小固定为256*128.随机抽取了N张真实图像和N张UnityStyle图像。由此得到一个损失函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
L是标签的数量,p(L)是x标签被预测为L的概率,q(l)为ground-truth分布
在这里插入图片描述
因此可以将上边两个损失简化
在这里插入图片描述

其中Pr是第i个真实图像被正确预测的概率,Pu是unity图像被正确预测的概率。

4.Test

测试时,分为查询库和图库,使用unityGAN将两个数据库均转化为unityStyle。在查询时,使用已经转化为unityStyle的查询库作为输入,在图库中进行匹配。

5.结果

在这里插入图片描述
在这里插入图片描述

上图为搭配不同深度Re-ID模型在不同数据库上的表现,可以发现mAP和top-K精度都得到了显著提高。
在这里插入图片描述

上图为消融实验,可以看到unityStyle在加上RE(re-ranking)操作,使得准确率得到了再度提升

6.总结

本文在cycleGAN基础上畸形了改进和提升,使用unityStyle统一所有相机得到照片的风格,从而实现提升Re-ID准确率。并且通过该模型得到的怎强图片无需单独处理,可以与原数据集一起进行处理。

7.问题

1.对于输入需要规定图片大小,这是否时必须的?
2.消融实验中,基于IDE的unityStyle增强的Re-ID结果为何与前边不一样?
3.风格的迁移是否必须用GAN网络?普通的非pix2pix的风格迁移方法是否有效?
4.在运算时间上哪个模型更有优势?

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值