论文阅读笔记--Going Beyond Real Data: A Robust Visual Representation for Vehicle Re-identification

前言

3月份准备跟实验的大佬一起打AICITY的比赛,最近在调研以前AICITY的winner论文,主要是track2(City-Scale Multi-Camera Re-id)和track3(City-Scale Multi-Camera Tracking的。下面这一篇文章Going Beyond Real Data: A Robust Visual Representation for Vehicle Re-identification就是2020年track2的winner

摘要

(1)充分利用合成图像的优点,同时使用真实图像,学习一个关于vehicle在不同视角和不同照明条件下的鲁棒视觉表征。
(2)对比不同的数据增强方法和baseline,分析出聊限制vehicle re-id的瓶颈。
(3)设计了一种具有更好的数据增强、训练和后处理的vehicle re-id的方法。
在这里插入图片描述

相关工作

(1)有效的损失函数,采样策略和训练技巧应在CNN框架中。
(2)提出融合CNN特征和人工特征,从而产生robust的表征。
(3)注释车辆图像的关键点,并利用基于零件的车辆特征。
(4)车辆通常在短时间内再次出现在相机下,并应用时空约束来消除硬负样本。(短时间车辆会出现在同一个view中?)
(5)借鉴行人重识别和人脸识别中的center loss,spatial transformer和 batch normalization neck
(6)数据增强:通过转换单视图特征来合成多视图的特征,从而解决方向不同的问题;利用图形引擎来增强具有不同方向和属性的真实世界数据集。
(7)GAN:风格迁移;生成有具体属性的样本

提出的方法

Synthetic Data

Style Transform

Domain gap:合成图像和真实图像在风格上仍有巨大的差异。使用UNIT(Unsupervised
image-to-image translation networks)进行合成图像的风格转移,如Fig.1的左边。
为了减少domain gap,在训练过程中,输入图片要求在两个源域之间转化;训练之后,我们将合成图片放在合成→真实方向来获得更加真实的样本。

Content Manipulation

风格转移仅仅改变图片背景,不改变图片内容。
DG-Net可以生成不同外观的样本图片,两个编码器,负责捕捉外观和结构信息。一个解码器,利用外观和结构信息生成图片。利用一个id的3个姿势和另一个id的颜色生成后者的3个姿势图,如Fig.1的右边。
生成的数据仅用于微调阶段。
Fig.1

Copy & Paste

增加训练数据和让模型看到更多的背景变体。
首先利用detectron2
给定一个前景输入和一个背景输入,我们首先应用MaskRcCNN来获得vehicle mask和background mask,分别裁剪出前景和后经,然后利用DeepFill v2在删除前景的空白区域进行图像修复。最后将无缝图像克隆应用于前景和背景图像的融合,得到新的合成图。具体流程看Fig.2。
在这里插入图片描述

Representation Learning

Network Structure

主干网络(ResNeXt101.ResNeXt101_32x8l_wsl和ResNet50_IBN_a)在ImageNet数据集上面预训练,并进行了以下的两种改进:
(1)更换了新的分类器,简化的网络结构如下:
Backbone-fc1-BN-fc2(512,class_num)
512dim feature as visual representation
(2)融合多尺度信息,提高车辆的代表性。Fig.3展示了具体融合的流程。
GAP: Global average pooling,全局平均池化
GMP: Global max pooling,全局最大池化
AAP:adaptive average pooling,自适应平均池化
AMP:adaptive max pooling,自适应最大池化
在这里插入图片描述

Optimization Functions

loss-function:cross-entropy+ranking_loss
(1)ranking loss 拉近同一个id的样本,推开不同id的样本。
l o s s r a n k i n g = [ D a p − D a n + m ] + loss_{ranking} = [D_{ap}-D_{an}+m]_{+} lossranking=[DapDan+m]+
(2)cross-entropy loss:利用交叉熵损失来惩罚不正确的预测
l o s s c e = − Σ i = i N p i l o g ( p ^ i ) loss_{ce}=-Σ_{i=i}^{N}p_{i}log(\hat p_{i}) lossce=Σi=iNpilog(p^i)
在Fig.3的head Block中,会添加几个网络层,具体如下:
head block:BN-leaky_relu-Conv-BN-fc-softmax(cross-entropy)

Negative Mining

为了增强模型的识别能力,论文中应用off-line negative example挖掘步骤对模型进行微调,具体分为两个阶段:
(1)在每一个batch中随机取50%的样本,找出最相似的难样本来构成难样本对
(2)正常利用rank_loss进行训练

Auxiliary Information Learning

在车辆重识别中,同一个摄像头的拍摄,这个因素会妨碍模型正确识别,类似地,车辆方向也会影响模型正确识别。
因为我们的任务是需要找到同一个id下不同camera的view,此条件下,一般方向是不同的,对应的camera也不同
(1)direction-aware model:防止因为车辆方向相似,而影响id_rank匹配。
具体的网络结构如下:
(dropout)ResNet-GAP-fc-BN-fc(softmax)
dot product as similarity
(2)camera-aware model:防止因为同一个camera而影响id_rank匹配。

Implementation Details

(1)SGD:momentum=0.9,base_lr=0.001, cosine strategy to decay lr
l r = b a s e l r × 0.1 [ E p o c h 30 ] × c o s ( π ∗ ( E p o c h % 30 ) ) lr=base_lr×0.1[\frac{Epoch}{30}]×cos(\pi*(Epoch\%30)) lr=baselr×0.1[30Epoch]×cos(π(Epoch%30))
(2)Data augmentation: random flip, scale jittering和ImageNet数据集上面学习到的增强策略

Fine-tuning Model

先利用合成数据和真实数据一起训练网络,然后再利用真实数据微调网络。
具体过程:更换一个对应类别数目的fc层,先固定主干网络的参数,训练新的fc层。然后微调整个网络的参数。
DC-Net生成的数据也会用于微调。

Post-Processing

Image Alignment

由于比赛给的数据集是利用相对松的bounding box,这会引入额外的背景数据。因此,论文利用 MaskRCNN重新探测车辆,进行bounding box。为了得到鲁棒的表征,论文平均了由原始图片学习和新裁剪的图片的表征。

Model Ensemble

拼接来自12个不同网络得到的归一化表征

Query Expansion & Re-ranking

利用无监督聚类方法DBSCAN来找出大多数相似的样本。查询特性被更新为同一聚类中其他查询的平均特性。
由于低分辨率的图片会影响模型识别,这里不涉及低分辨率图像的特征到平均特征的计算。
然后采用re-ranking来修改匹配的结果。

camera verification

利用camera信息来移除难负样本。
训练时,识别图片是从哪一个camera得到的
测试时,提取camera预测结果和对应的camera特征并利用camera特征聚类。

论文假设查询图片和目标图片来自不同的camera和有不同的预测方向。
根据假设这里会减少由相同camera预测和有相同聚类中心的img与query的相似性。

Group Distance

同一轨迹的图像属于同一车辆,可以共享视觉表示以增强单个图像的表示可伸缩性;

这里将gallery feature更新为同一轨道中其他图像的平均特征。

同一摄像机下的不同轨道是不同的车辆。
假设从相机C中获得了高可信度的图像,我们对同一相机C中不同轨迹的相似度评分进行降低。

Experiment

Dataset

(1)训练集:333个vehicle的36935个样本
(2)私密测试集:1052 query images and 18290 gallery images
(3)合成数据集:1362个vehicle的192150个样本
由于比赛没有给出验证集,论文从训练集分出78个vehicle ID作为验证集。

Before and after post-processing.

在这里插入图片描述
在这里插入图片描述

Heatmap of the learned model

在这里插入图片描述

自我总结

总的来说,这个论文不难理解。算是一些新方法的combination,应该是这种类似的工程项目,都是方法的combination吧。其中有意思的是通过post-process过程,对匹配的rank表,根据车辆方向是否相同,是否来自同一个camera来调整reranking。
这里有一些像Weakly supervised discriminative feature learning with
state information for person identification[1]
训练得到的表征进行聚类,通过是否由相同的view和照明信息,来取消这个聚类或者减少聚类的边界,从而实现弱监督。
后续看了代码再来填坑。

[1]Hong-Xing Yu and Wei-Shi Zheng. “Weakly supervised discriminative feature learning with state information for person identification” In CVPR 2020.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值