[论文阅读] Beyond part models: Person retrieval with refined part pooling

本文探讨了在行人重识别任务中,利用精炼部分池化(Refined Part Pooling)改进统一水平分割方法,以提高特征的一致性和排除离群点。通过backbone网络提取特征后,对图像水平分割并进行平均池化,然后通过全卷积层降低维度。尽管两种变体的性能不佳,但加入RPP后在Market-1501数据集上的mAP有显著提升。此外,文章提出部分划分应考虑边界曲折,并介绍了包含part classifier的训练过程。
摘要由CSDN通过智能技术生成

Beyond part models: Person retrieval with refined part pooling

Introduction

在行人重识别这个问题上,从人的不同身体部位提取得到的特征比全局特征更加精细,这些细粒度的特征对于行人的判断往往是更具决定性的。有的方法采用已有的人体姿态估计的方法,识别出人的部位,进而去分别提取特征。 虽然这样的行人分割特征提取方法可行,但是效用并不高。首先是由于两个任务的数据集是不同的,也就意味着人体姿态估计的泛化效果未必理想。所以,构建一个这样的数据库(既有行人id,又有行人关节点)还是很有意义的一项工作。所以在目前的一些工作来看,一种水平分割的方式得到的结果更加优异。

本文展示了一种分割的baseline,即统一将人水平分割成6部分;并且针对这样统一的分割方式,采用一种refined part pooling 的方式优化每一部分,使每一部分之内更加相似,保证一致性,排除离群点。

算法介绍

基本框架

下图是模型的基本框架:

首先输入图片(规定的大小为384*128,长宽比3:1)经过一个backbone network提取特征。这个backbone network可以是Google Inception或者ResNet,得到一个C*M*N(2048*24*8)的特征图。将特征图水平分为6块,也就是每块4*8,对每一块单独进行average pooling,得到g,再通过一个核为1的全卷积层,将特征降维成256维,得到h,分别用这6组特征进行分类。

以上的算法流程有两个变体,一是对6组h特征取平均,再进行分类,二是六个分类器一同优化,分享参数。但这两个变体的效果都不佳。另外使用高维的g特征去分类比低维的h特征效果好一点,但计算成本更高。

上述基本流程,在Market-1501数据集上rank-1为92.3%(g)和92.4%(h)。而加上RPP的优化提高了1.5%和0.7%的,感觉优化地并无多大差。但是mAP从77.3%提升到81.6%,有了一个较大的提升。

Refined Part Pooling

在计算出g之后,作者计算了下每个g和得到g的各个区域的f的距离,观察是否每个g只和他们各自区域内的f相似。发现并不然。下图可以看出,每个区域内都有一定的离群点。这些离群点表示这个f和另一个区域更相似。部位划分不应该是个“hard”的,而是边界曲折的。

所以可以计算出每个f得到其属于part P的概率。

P(Pi|f
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值