行人重识别论文(一)--Joint Detection and Identification Feature Learning for Person Search

目录

本文的主要贡献

摘要

introduction

 Related Work

 Method

 Model Structure

 Online Instance Matching Loss

Dataset

Experiments

 

本文的主要贡献

1、主要提出了在对行人进行再识别时与行人检测相互结合

2、提出了OIM损失函数代替Softmax损失函数(最大的贡献)

3、收集了新的行人检测数据集(没有公开,使用没有什么卵用)

摘要

现有的行人再识别方法中所使用的标准和方法主要关注的是经过裁剪的行人照片,这与现实生活场景中的图片有所不同。本文为了缩小两者的差距,提出了一种行人搜索的新框架,将行人检测和行人再识别结合起来,利用单个CNN来进行训练。文中使用了OIM损失(Online Instance Matching)来训练网络,它比一般的Softmax损失函数的效果更快更好。
 

introduction

首先介绍了行人再识别的应用领域以及这个研究方向存在的难点,比如人物的姿态,摄像机的角度,光照,像素,背景等,接着介绍了尽管人们提出了许多行人再识别的数据集和方法,但是和现实应用的场景还是有很大的gap在,原因在于许多方法用到的是人工裁剪过的图像,而在现实中首先必须先从行人所在的某个场景中识别出行人。目前许多paper里的方法已经假定了行人是被完美识别出来的。如下图:

本文的主要工作:

        本文利用单个CNN将两者结合来解决上述问题,该CNN分为两个部分,一个是pedestrian proposal net,来产生候选行人的 bounding boxes,另一个是identification net,来提取特征来进行与检索目标的比较。并且使得两者在 joint optimization过程中具有相互适应,从而消除自身外另一网络带来的问题。
        传统的re-id特征学习主要依赖于pair-wise或triplet distance loss functions(缺点计算量大)以及Softmax loss function(缺点随着行人类型的增多,运行时间会变慢甚至函数无法收敛)。于是本文提出 Online Instance Matching损失函数,原理是利用来自所有labeled identities特征所形成的lookup table与mini-batch样本之间进行距离比较,另外那些unlabeled identities可以被视为negatives,并且将unlabeled identities的特征存储在循环队列(circular queue)中进行比较。

 Related Work

Person re-identification:早期的行人重识别使用的方法包括...... 二进制验证损失函数、多数据集整合等方法

Pedestrian detection:早期是传统的方法,今年来深度学习引用于行人重识别。

 Method

网络结构:使用CNN联合训练the pedestrian detection and personre-identification。给定一张检测图片,首先通过CNN网络将像素和转化为特征图。pedestrian proposal net建立在这些feature maps之上,从而预测候选行人的bounding boxes。然后bounding boxes送入具有RoI-Pooling的identification net来提取经过L2正则化后的每个box特征(256维)。在推测阶段,利用gallery person和目标行人之间的features distances来进行排序。在训练阶段,根据排序的前几个feature vectors,使用OIM loss function来监控identification net以及其他的loss functions以多任务方式来训练检测行人网络。

 Model Structure

     这篇文章采用ResNet-50作为本文的基于CNN模型的网络结构。该模型首先采用 7 × 7的卷积层作为 conv1。接着是 conv2 x to conv5 x分别包含 3,4,6,3 residual units。采用 conv1 to conv4 3 作为 stem部分。给定一个输入图片,输出一个1024维的特征图,这个特征图是原图像的十六分之一。

      根据features maps,利用512 × 3 × 3的卷积层来对行人特征进行转换,接着在feature map的每个位置利用9个anchors(源于Faster RCNN)和Softmax分类器进行行人与否的预测,同时还包括了线性回归来调整anchors的位置。在 non-maximum suppression 过后保留128个调整后的bounding boxes作为最终的proposals。

       为了在这些proposals里找到目标行人,建立了identification net来提取特征,并与目标行人作对比。首先利用RoI Pooling层从stem feature map中得到1024 × 14 × 14的区域(对应于每个proposal),接着将它们送入ResNet-50的conv4_4至conv5_3层,再利用global average pooling层将其整合为2048维的特征向量。一方面, pedestrian proposals不可避免的会包含一些false alarms(也就是proposal里包含的不是行人)和misalignments,利用Softmax分类器和线性回归来拒绝非行人区域并完善proposal的位置。另一方面,我们将特征投影到经过L2正则化后的256维向量子空间中,(这里进行低维投影是因为OIM容易过拟合)计算它们和目标行人的余弦相似度。

 Online Instance Matching Loss

训练数据集包含L个不同的目标任务,

labeled identity:数据集中包含的行人。(图中蓝色标记框)

unlabeled identities:包含行人但不在数据集中的行人。(图中橙色标记框)

background clutter:包含非行人物体或者背景的proposal。

文中并未选择SGD进行优化,而选择了online approximation。mini-batch中一个labeled identity的特征被记为记为x(x是D维特征向量),保留一个 lookup table(LUT)记录所有labeled identity的特征(D×L 维矩阵,L是不同目标行人的个数)。在前向传播中,计算mini-batch中样本与所有labeled identities之间的的余弦相似度。在后向传播过程中,如果目标行人的分类标签是t,那么就可以利用如下公式来更新LUT中的第t列:

除了 labeled identities之外,我们利用circular queue来保存那些unlabeled identities的特征,用U来表示(D×Q维矩阵,Q是queue的大小),同样也可以计算U与mini-batch样本之间的余弦相似度。每一轮迭代过后,将新的特征向量压入队列中,并剔除那些过时的。
特征向量x被视为第i类的行人的概率为:

其中T控制了概率分布的平缓程度。同样的,在 circular queue中,x被视为第i类 unlabeled identity 的概率

 

OIM最终目标是使得期望似然函数最大化:

L对x的梯度可以表示为:

可以看出OIM损失有效的区分了 mini-batch与 labeled and unlabeled identities。使得与目标人物相似的尽量靠近,不相似的尽量远离。

Why not Softmax loss?

      大规模行人搜索数据集里的行人类别太多,并且每个人对应的实例较少。同时需要学习的判别函数过多,而每次SGD中的positive samples又太少,因此分类矩阵的梯度变化很大。其次,Softmax无法利用unlabeled identities,因为在Softmax中它们没有明确的类别标识。

     OIM与Softmax主要的区别在于OIM损失是非参数化的,LUT和circular queue被认为是外部记忆单元,而非网络的参数。但OIM容易过拟合,所以文中将特征映射到经过L2正则化之后的低维子空间中。

       当行人种类增加时,前面的计算公式会比较费时,因此采用了对labeled和unlabeled identities进行二次采样的方法。

Dataset

Experiments

没有数据集无法复现没有研究数据集和实验的必要。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值