Person Search via A Mask-Guided Two-Stream CNN Model论文笔记

1.概述

论文主要是为了解决行人搜索(行人检测+行人重识别),论文将行人检索看成两个阶段,认为分离的检测器和re-ID特征提取能够产生更高的性能。论文提出了一个基于Mask-guided的双路CNN模型,一个分支是通过输入原始图像,输出检测后的行人候选框,另一个分支是通过预训练实例分割模型,提取原始图片的行人二值化掩膜。

2.方法介绍

如上图所示:主要有两个阶段组成(检测分割阶段、re-ID阶段)

Detecor:采用Faster R-CNN作为行人检测器。

分割:采用MS COCO预训练的FCIS模型提取掩膜。

这两个阶段不是端到端训练,而是单独训练。

(1)行人检测:

采用基于VGG16的Faster RCNN架构(可能是为了减少训练时间),和目标检测类似,RPN输出一系列的候选框,采用非极大值抑制算法(IoU>0.7)。筛选的候选框先经过RoI pooling映射到相同大小,送入分类和回归网络,最终输出相应的得分和bounding box参数,通过SGD算法,不断修正候选框的位置,使得检测行人的结果更加准确。

(2)前景与背景分割:

 

前景分割主要依赖于行人检测结果和一个前景分割的预训练模型,具体做法如上述算法所示:

a.将得到的每个RoI(包括ground truth)扩充一定比例,主要是为了包含更多的特征信息。

b.如右图所示,根据RoI,在原图和实例分割图分别裁剪行人,将获取的实例分割的行人进行二值化处理,使其只包含背景和前景信息。

c.将裁剪的行人和裁剪的掩膜执行element-wise production,获得的图片只含前景信息,去除了相关的背景干扰。

(3)双流网络建模:

原始图像和只含前景的图像分别输入到O-Net和F-Net提取相应的特征,最终将特征级联,经过一个注意力机制网络(SEBlock)将级联的特征进行重排序,这个模块主要使用OIM损失来训练。

3.总结

该论文想法很独特,通过引入掩膜去除背景干扰,来实现提取具有可区分性的行人特征,最终的实验结果也验证了作者提出的方法的可行性。

如果有啥问题,欢迎指出,大家一起讨论。

论文链接:https://arxiv.org/abs/1807.08107?context=cs

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值