CVPR2019-行人重识别-Densely Semantically Aligned Person Re-Identification论文阅读

动机:

re-id问题在遇到遮挡、姿态变化时,全局信息不能很好表示行人的特征,所以需要局部信息,但目前基于局部特征的re-id也有缺陷,提取的局部信息是刚性的,在不同视角下差异大,无法对齐而导致无法利用提取到高效的part信息,总结一下:

  • 局部信息不够精细
  • 对齐方法粗糙

创新:

FAIR开源了densepose,可以通过二维图像得到人体的三维建模,并将三维建模分为人体24个part,并通过降维的uv图表示。
在这里插入图片描述
DSAP数据准备:

  1. 得到24个part的uv图:densepose文章里面对24个part有明确的介绍。其中每个part由u,v表示,范围在(0,1)
  2. 颜色映射:将原图的颜色空间映射到24个part,其中若part未被检测到则不进行颜色映射
  3. 数据整合:考虑到部分特征会丢失,即不一定会采集到完整的24个part,作者对特征进行了整合,将临近的特征整合为一个特征。这样得到了8个整合特征

这种特征提取方法会对不属于人体的装饰物产生漏判,例如书包会被自动过滤掉。
在这里插入图片描述

总结一下:通过densepose得到更精细并对齐的局部特征

框架:

在这里插入图片描述

  1. 框架结构:
    主流网络(全局特征)+辅助网络(训练part特征),其中主网络通过一个子网络得到尺度为8的特征向量,与辅助网络的特征向量融合。
  2. 特征:全局+局部,其中考虑到部分特征会丢失,即不一定会采集到完整的24个part,作者对特征进行了整合,将临近的特征整合为一个特征。
    在这里插入图片描述
  3. 损失函数:idloss + triplet loss

实验

在这里插入图片描述

  1. baseline(w/o RE + LS):rank1为91.7%,怪不得最后效果能95以上,看来一个好的baseline很重要。
  2. 基础的basline加入Bag of trick后,可以达到94%
  3. 将Global特征和Local特征结合训练后,提点明显。

疑惑:

在这里插入图片描述
这个实验很有意思,主网络和辅助网络融合策略不同而导致的结果大幅度变化,但是作者并没有分析这个问题的原因。
该文章实验的思路很接近spindle net,但是spindle net融合的思路是按级别近似融合,即语义特征近似的融合,如图所示:
在这里插入图片描述
但本文主干网络通过主网络通过一个子网络得到尺度为8的特征向量,这个向量到底是什么含义,代表了不同的part?但是损失函数并未体现。
我认为特征图在语义信息未对齐的情况下,直接element-add效果并不会好,所以大部分情况下是采用concat的方法,代码还未开源,对结果存疑。

思考与总结:

本文可以基本看作是cvpr17年spindle net的升级版,其整体架构、局部信息的处理和局部临近区域的融合,均借鉴了spindle net的思想,只不过前者是24个part到8个临近区域融合特征,后者是14个关键点到7个临近区域融合。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值