Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-ID

局部可见感知模型——VPM

论文摘要
论文中考虑了行人重新识别 (re-ID) 的一个现实问题,即局部行人重识别问题。在局部行人重识别场景下,需要探索数据库图像中包含整体人物的比例大小。如果直接将局部行人图像与整体行人图像进行比较,则极端空间错位问题将显著地损害特征表征学习的判别能力。针对这个问题,本文提出了一个局部可见感知模型 (VPM),通过自监督学习感知可见区域内的特征,来解决局部行人重识别问题。该模型利用可见感知的特性,能够提取区域特征并比较两张图像的共享区域 (共享区域在两张图像上都是可见区域),从而局部行人重识别问题上取得更好的表现。总的来说,VPM 有两大优势:一方面,与学习全局特征的模型相比,VPM 模型通过学习图像区域特征,能够更好地提取一些细粒度特征信息。另一方面,利用可见感知特征,VPM 能够估计两个图像之间的共享区域,从而抑制空间错位问题。通过大量的实验结果验证,VPM 模型能够显著地改善特征表征的学习能力,并且在局部和整体行人重识别场景中,均可获得与当前最先进方法相当的性能。

提出问题
行人再识别需要已经可以刷到很高的精度,但是现实中存在的问题依旧很多,比如遮挡、行人衣物的变换等。现在行人局部问题成为了时下比较流行的论文趋势。本文提出了一个VPM自适应感知器,可以摒弃遮挡部分,只提取共同部分的特征进行比较。如下图所示,提取被遮挡的部分不仅在最终的特征表示中起不到良好的效果,还会引入无用信息对结果进行干扰。
在这里插入图片描述
解决问题
(非常巧妙,但是有些细节问题没有看懂,欢迎留言)
本文基于以上想法,提出一个VPM自适应网络结构,如下图所示,在这里插入图片描述

具体步骤如下:
1,将一张行人的整体图像分割成为几个部分(以三个部分为例,你想分几个部分都是可以设置的),再将局部图像送入ResNet50网络中进行特征提取,输出特征张量图T
2,对T中的每一个像素g进行使用1×1的卷积核和Softmax函数进行预测,预测这个像素到底属于整体图像的哪个部分,得到三张概率
图(对应整体图像的三个部分)
3,(1)求概率图上所有的概率求和,获得分数C(可视分数),C越大表示这个map输入整体图像的哪个部分的概率就越大。
(2)特征提取器,利用map和T加权求和,为每一个区域生成相应的特征。
4,核心思想,如何计算共同区域实现分类呢?
在这里插入图片描述
Ci是包含第i部分的概率,Di是两个图片第i部分的距离。可以看出来,只要有一张图片不含有第i部分(Ci很小),那么Di对于距离的贡献就非常小了,这样便实现了这篇文章的核心思想。

实验过程
(1)训练部分
[1] 将对应的完整图像提前设计好几个部分,方便后面对T中的每个g
赋予标签。
[2] 对完整的行人图像随机剪裁,再将剪裁后的图像调整大小成H×W。(随机剪裁可以排除一些具体设定),然后利用ROI将剪裁后的图像投影到张量T上(文中有个具体的过程,但是不知道在说啥,不是说好用ResNet50进行特征提取了吗?)
[3] 损失函数主要是使用每个像素的交叉熵、每个部分的特征向量预测行人身份的损失,以及三重损失,如下图所示
在这里插入图片描述
利用VPM得到最后分数和特征向量之后,利用每个区域的特征向量分类损失和共同区域的三重损失进行训练。整体损失是三个损失的和。
[4] 在Market-1501和DukeMTMC-reID上训练,在partial re-ID 行人数据库进行比较

最终结果
效果还是不错的,比较灵活,详细就见文章吧

感悟
这篇文章的精髓就在于可以自动识别共享区域,与局部分割相比做法简单,节约计算成本。从一定程度上解决了空间失陪和图像不完整的问题。去年18年有一个中科院的论文想法也是差不多,但是做法不太一样,回去再看,补一篇随笔。

仅是一点总结和想法,欢迎大家吐槽批评,做行人重识别方法的同学可以加个V:568111132,备注Re-ID(CSDN),以此共勉。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值