行人重识别论文（一）--Joint Detection and Identification Feature Learning for Person Search

最新推荐文章于 2021-12-10 22:50:25 发布

展希希鸿

最新推荐文章于 2021-12-10 22:50:25 发布

阅读量2.2k

点赞数 4

分类专栏：行人重识别文章标签：行人重识别 OIM损失

本文链接：https://blog.csdn.net/qq_28266311/article/details/85265734

版权

行人重识别专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文的主要贡献

1、主要提出了在对行人进行再识别时与行人检测相互结合

2、提出了OIM损失函数代替Softmax损失函数（最大的贡献）

3、收集了新的行人检测数据集（没有公开，使用没有什么卵用）

摘要

现有的行人再识别方法中所使用的标准和方法主要关注的是经过裁剪的行人照片，这与现实生活场景中的图片有所不同。本文为了缩小两者的差距，提出了一种行人搜索的新框架，将行人检测和行人再识别结合起来，利用单个CNN来进行训练。文中使用了OIM损失（Online Instance Matching）来训练网络，它比一般的Softmax损失函数的效果更快更好。

introduction

首先介绍了行人再识别的应用领域以及这个研究方向存在的难点，比如人物的姿态，摄像机的角度，光照，像素，背景等，接着介绍了尽管人们提出了许多行人再识别的数据集和方法，但是和现实应用的场景还是有很大的gap在，原因在于许多方法用到的是人工裁剪过的图像，而在现实中首先必须先从行人所在的某个场景中识别出行人。目前许多paper里的方法已经假定了行人是被完美识别出来的。如下图：

本文的主要工作：

本文利用单个CNN将两者结合来解决上述问题，该CNN分为两个部分，一个是pedestrian proposal net，来产生候选行人的 bounding boxes，另一个是identification net，来提取特征来进行与检索目标的比较。并且使得两者在 joint optimization过程中具有相互适应，从而消除自身外另一网络带来的问题。
传统的re-id特征学习主要依赖于pair-wise或triplet distance loss functions（缺点计算量大）以及Softmax loss function（缺点随着行人类型的增多，运行时间会变慢甚至函数无法收敛）。于是本文提出 Online Instance Matching损失函数，原理是利用来自所有labeled identities特征所形成的lookup table与mini-batch样本之间进行距离比较，另外那些unlabeled identities可以被视为negatives，并且将unlabeled identities的特征存储在循环队列（circular queue）中进行比较。

Related Work

Person re-identification：早期的行人重识别使用的方法包括...... 二进制验证损失函数、多数据集整合等方法

Pedestrian detection：早期是传统的方法，今年来深度学习引用于行人重识别。

Method

网络结构：使用CNN联合训练the pedestrian detection and personre-identification。给定一张检测图片，首先通过CNN网络将像素和转化为特征图。pedestrian proposal net建立在这些feature maps之上，从而预测候选行人的bounding boxes。然后bounding boxes送入具有RoI-Pooling的identification net来提取经过L2正则化后的每个box特征（256维）。在推测阶段，利用gallery person和目标行人之间的features distances来进行排序。在训练阶段，根据排序的前几个feature vectors，使用OIM loss function来监控identification net以及其他的loss functions以多任务方式来训练检测行人网络。

Model Structure

这篇文章采用ResNet-50作为本文的基于CNN模型的网络结构。该模型首先采用 7 × 7的卷积层作为 conv1。接着是 conv2 x to conv5 x分别包含 3,4,6,3 residual units。采用 conv1 to conv4 3 作为 stem部分。给定一个输入图片，输出一个1024维的特征图，这个特征图是原图像的十六分之一。

根据features maps，利用512 × 3 × 3的卷积层来对行人特征进行转换，接着在feature map的每个位置利用9个anchors（源于Faster RCNN）和Softmax分类器进行行人与否的预测，同时还包括了线性回归来调整anchors的位置。在 non-maximum suppression 过后保留128个调整后的bounding boxes作为最终的proposals。

为了在这些proposals里找到目标行人，建立了identification net来提取特征，并与目标行人作对比。首先利用RoI Pooling层从stem feature map中得到1024 × 14 × 14的区域（对应于每个proposal），接着将它们送入ResNet-50的conv4_4至conv5_3层，再利用global average pooling层将其整合为2048维的特征向量。一方面， pedestrian proposals不可避免的会包含一些false alarms（也就是proposal里包含的不是行人）和misalignments，利用Softmax分类器和线性回归来拒绝非行人区域并完善proposal的位置。另一方面，我们将特征投影到经过L2正则化后的256维向量子空间中，（这里进行低维投影是因为OIM容易过拟合）计算它们和目标行人的余弦相似度。

Online Instance Matching Loss

训练数据集包含L个不同的目标任务，

labeled identity：数据集中包含的行人。（图中蓝色标记框）

unlabeled identities：包含行人但不在数据集中的行人。（图中橙色标记框）

background clutter：包含非行人物体或者背景的proposal。

文中并未选择SGD进行优化，而选择了online approximation。mini-batch中一个labeled identity的特征被记为记为x（x是D维特征向量），保留一个 lookup table（LUT）记录所有labeled identity的特征（D×L 维矩阵，L是不同目标行人的个数）。在前向传播中，计算mini-batch中样本与所有labeled identities之间的的余弦相似度。在后向传播过程中，如果目标行人的分类标签是t，那么就可以利用如下公式来更新LUT中的第t列：

除了 labeled identities之外，我们利用circular queue来保存那些unlabeled identities的特征，用U来表示（D×Q维矩阵，Q是queue的大小），同样也可以计算U与mini-batch样本之间的余弦相似度。每一轮迭代过后，将新的特征向量压入队列中，并剔除那些过时的。
特征向量x被视为第i类的行人的概率为：