论文阅读笔记--Going Beyond Real Data: A Robust Visual Representation for Vehicle Re-identification

最新推荐文章于 2024-05-14 07:15:00 发布

千叶Mc

最新推荐文章于 2024-05-14 07:15:00 发布

阅读量1.1k

点赞数 1

分类专栏： Re-id AICITY 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_40548153/article/details/113617925

版权

Re-id 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

AICITY

1 篇文章 0 订阅

订阅专栏

论文阅读笔记--Going Beyond Real Data: A Robust Visual Representation for Vehicle Re-identification

前言
摘要
相关工作
提出的方法

前言

3月份准备跟实验的大佬一起打AICITY的比赛，最近在调研以前AICITY的winner论文，主要是track2(City-Scale Multi-Camera Re-id)和track3(City-Scale Multi-Camera Tracking的。下面这一篇文章Going Beyond Real Data: A Robust Visual Representation for Vehicle Re-identification就是2020年track2的winner

摘要

（1）充分利用合成图像的优点，同时使用真实图像，学习一个关于vehicle在不同视角和不同照明条件下的鲁棒视觉表征。
（2）对比不同的数据增强方法和baseline，分析出聊限制vehicle re-id的瓶颈。
（3）设计了一种具有更好的数据增强、训练和后处理的vehicle re-id的方法。
在这里插入图片描述

提出的方法

Synthetic Data

Style Transform

Domain gap：合成图像和真实图像在风格上仍有巨大的差异。使用UNIT（Unsupervised
image-to-image translation networks）进行合成图像的风格转移，如Fig.1的左边。
为了减少domain gap，在训练过程中，输入图片要求在两个源域之间转化；训练之后，我们将合成图片放在合成→真实方向来获得更加真实的样本。

Content Manipulation

风格转移仅仅改变图片背景，不改变图片内容。
DG-Net可以生成不同外观的样本图片，两个编码器，负责捕捉外观和结构信息。一个解码器，利用外观和结构信息生成图片。利用一个id的3个姿势和另一个id的颜色生成后者的3个姿势图，如Fig.1的右边。
生成的数据仅用于微调阶段。
Fig.1

Copy & Paste

增加训练数据和让模型看到更多的背景变体。
首先利用detectron2
给定一个前景输入和一个背景输入，我们首先应用MaskRcCNN来获得vehicle mask和background mask，分别裁剪出前景和后经，然后利用DeepFill v2在删除前景的空白区域进行图像修复。最后将无缝图像克隆应用于前景和背景图像的融合，得到新的合成图。具体流程看Fig.2。
在这里插入图片描述

Representation Learning

Optimization Functions

loss-function：cross-entropy+ranking_loss
（1）ranking loss 拉近同一个id的样本，推开不同id的样本。
$loss_{ranking} = [D_{ap}-D_{an}+m]_{+}$
（2）cross-entropy loss：利用交叉熵损失来惩罚不正确的预测
$loss_{ce}=-Σ_{i=i}^{N}p_{i}log(\hat p_{i})$
在Fig.3的head Block中，会添加几个网络层，具体如下：
head block：BN-leaky_relu-Conv-BN-fc-softmax(cross-entropy)

Negative Mining

为了增强模型的识别能力，论文中应用off-line negative example挖掘步骤对模型进行微调，具体分为两个阶段：
（1）在每一个batch中随机取50%的样本，找出最相似的难样本来构成难样本对
（2）正常利用rank_loss进行训练

Auxiliary Information Learning

在车辆重识别中，同一个摄像头的拍摄，这个因素会妨碍模型正确识别，类似地，车辆方向也会影响模型正确识别。
因为我们的任务是需要找到同一个id下不同camera的view，此条件下，一般方向是不同的，对应的camera也不同
(1)direction-aware model：防止因为车辆方向相似，而影响id_rank匹配。
具体的网络结构如下：
(dropout)ResNet-GAP-fc-BN-fc(softmax)
dot product as similarity
(2)camera-aware model：防止因为同一个camera而影响id_rank匹配。

Implementation Details

（1）SGD:momentum=0.9,base_lr=0.001, cosine strategy to decay lr
$lr=base_lr×0.1[\frac{Epoch}{30}]×cos(\pi*(Epoch\%30))$
（2）Data augmentation: random flip, scale jittering和ImageNet数据集上面学习到的增强策略

Fine-tuning Model

先利用合成数据和真实数据一起训练网络，然后再利用真实数据微调网络。
具体过程：更换一个对应类别数目的fc层，先固定主干网络的参数，训练新的fc层。然后微调整个网络的参数。
DC-Net生成的数据也会用于微调。

Post-Processing

Image Alignment

由于比赛给的数据集是利用相对松的bounding box，这会引入额外的背景数据。因此，论文利用 MaskRCNN重新探测车辆，进行bounding box。为了得到鲁棒的表征，论文平均了由原始图片学习和新裁剪的图片的表征。

Model Ensemble

拼接来自12个不同网络得到的归一化表征

Query Expansion & Re-ranking

利用无监督聚类方法DBSCAN来找出大多数相似的样本。查询特性被更新为同一聚类中其他查询的平均特性。
由于低分辨率的图片会影响模型识别，这里不涉及低分辨率图像的特征到平均特征的计算。
然后采用re-ranking来修改匹配的结果。

camera verification

利用camera信息来移除难负样本。
训练时，识别图片是从哪一个camera得到的
测试时，提取camera预测结果和对应的camera特征并利用camera特征聚类。

论文假设查询图片和目标图片来自不同的camera和有不同的预测方向。
根据假设这里会减少由相同camera预测和有相同聚类中心的img与query的相似性。

Group Distance

同一轨迹的图像属于同一车辆，可以共享视觉表示以增强单个图像的表示可伸缩性；

这里将gallery feature更新为同一轨道中其他图像的平均特征。

同一摄像机下的不同轨道是不同的车辆。
假设从相机C中获得了高可信度的图像，我们对同一相机C中不同轨迹的相似度评分进行降低。

Experiment

Dataset

（1）训练集：333个vehicle的36935个样本
（2）私密测试集：1052 query images and 18290 gallery images
（3）合成数据集：1362个vehicle的192150个样本
由于比赛没有给出验证集，论文从训练集分出78个vehicle ID作为验证集。

Before and after post-processing.

在这里插入图片描述

Heatmap of the learned model

在这里插入图片描述

自我总结

总的来说，这个论文不难理解。算是一些新方法的combination，应该是这种类似的工程项目，都是方法的combination吧。其中有意思的是通过post-process过程，对匹配的rank表，根据车辆方向是否相同，是否来自同一个camera来调整reranking。
这里有一些像Weakly supervised discriminative feature learning with
state information for person identification[1]
训练得到的表征进行聚类，通过是否由相同的view和照明信息，来取消这个聚类或者减少聚类的边界，从而实现弱监督。
后续看了代码再来填坑。