Person Search论文——Joint Detection and Identification Feature Learning for Person Search笔记

论文思想:

1.Person re-id通常在完美行人detection的假设下进行,先输入完美的bounding-box包围的图像,然后抽取特征和target进行比对,然而,现实场景中,完美detection的假设前提不成立。

2.已有前人尝试用detection+re-id的思路来解决现实场景中的re-id问题,不过,当时采用的思路是滑动窗口检测+手工选择特征的方式,并且将detection和re-id分为两个stage。

3.本文的思路是使用一个深度网络解决整个Person Search问题,让detection网络和re-id网络共用一部分CNN卷积层,联合优化。并且本文提出了一种Online Instance Matching Loss,能比Softmax Loss更快的收敛(为什么?)。此外,本文还贡献了一个Person Search的数据集便于研究者进一步研究Person Search。

 

模型结构:

1.首先通过proposal net和identification net共用的骨干网络提取到包含1024个通道,分辨率为原始输入(3*224*224)的1/16的feature maps(1024*14*14)。

2.然后将1中得到的feature maps(1024*14*14)送入proposal net生成行人的bounding box,具体做法是:首先用512个3*3的卷积核将1中得到的feature maps进行卷积,然后在包含512通道的feature maps(512*14*14)上借鉴运用faster rcnn的anchor机制,在feature maps上的每个位置预测9个anchor,再用softmax分类器找到前景(行人),再通过linear regression修正框的位置,再通过non-maximum suppression最终保留128个bounding box。

3.通过ROI-Pooling层对1中的feature maps(1024*14*14)上的每个bounding box(由第2步得到)进行池化,然后通过后续的卷积和全局平局池化层,将每个bounding box对应的部分特征图转化为2048维的特征向量。到此,再应用softmax分类器拒绝non-person,用linear regression调整框的位置;与此并行的,将2048维的特征向量用L2正则化映射到256维,用该256维向量与target-person的特征向量做cosine余弦相似性度量。在训练阶段,用OIM Loss监督intentification net的训练。对于整个网络(包括1,2,3步)采用多任务损失的训练方式训练。

整个网络的结构图如下:

 

OIM Loss:

在外部存储中维护LUT(look up table)和CQ(circular queue)中存储的特征向量。

当在输入的mini-batch中遇到某个labled identities的instance时,更新LUT中对应id的labled indentities vector,若遇到unlabled indentities时,剔除CQ中过时的特征向量,将这个新的unlabled indentities vector加入CQ。

 

读后尚存的一些疑问:

1.为何OIM Loss能比Softmax Loss更快的收敛?为何在Indentification网络中应用一个Softmax Classfier来匹配输入与target person不够好?

2.OIM Loss的梯度是如何计算得到的?

3.CMC top-k是如何计算的?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
几篇CVPR关于multi-task的论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:一个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单一图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十一、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 一共13篇,希望能够帮助到大家
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值