PAUL:Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification阅读总结

Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification

作者:Qize Yang, Hong-Xing Yu(MAR一作) 郑伟诗团队 2019 CVPR
源码:https://github.com/QizeYang/PAUL.

1.摘要:

part/patch在有监督reid中用烂了,但无监督reid中还没用过。因此作者提出基于patch的无监督网络PAUL。主要是三个部分:PatchNet提取patch,PEDAL和IPFL作为损失监督,性能不错。

2. 介绍

2.1. Motivation

作者的motivation来于实验观察,如下图:
在这里插入图片描述
对上图解释如下:相似的图像中必然存在相似的matched patches,而且patches之间的相似度必然远大于图像的相似度;但不是所有的matched patches都相似,因此作者要做基于patch的而不是基于图像的无监督reid。

2.2. 主体框架:

整个模型叫做patch-based unsupervised learning(PAUL),分三个部分:

  • 前期是一个PatchNet网络,对输入图像学习到的feature map提取patches并为这些patches学习鉴别性特征(每个patch鉴别性特征学习单独用一条支路)
  • 在PatchNet中学习的无监督图像的鉴别性patch特征(不是指patch的学习,patch的学习是PatchNet中的基于STN的PGN网络学习的)是由patch-based discriminative feature learning loss (PEDAL)损失监督指导的,其pull相似patch但push不相似patch。
  • 同时,还使用image-level patch feature learning loss (IPFL)对所有patches进行图像级指导,即克服pull相似的patch对那些难负样本的负面影响,该损失是基于triplet的,triplet分别有anchor,anchor经图像变化的代理正样本,anchor用循环ranking挖掘的困难负样本组成。

2.3. 贡献:

  • 第一次在无监督reid中用patch/part策略
  • PAUL的有效性

3. PAUL模型

3.1. PAUL概览

在2.2中的主体框架中已介绍了大半,这里只进行补充,如图2所示:
在这里插入图片描述

3.2. 各模块介绍

3.2.1 PatchNet

PatchNet由前端的CNN bockbone中端的patch generation network (PGN)以及后端的多分支鉴别性特征学习网络组成。PGN是从STN改造而来,对前端CNN的feature map提取patches而非直接对原始图像提取patches(能减少计算和复杂度),其能自动捕捉M个不同的(作者用的是不同的初始化,但这显然不够,需要更好的策略保证这些patches之间少重叠和针对性—如都针对手臂,躯体而不是背景之类的,然而奇怪的是作者展示的patch学习结果却挺不错的,图6)图像patches,这些是通过localization network (LN)网络的一组仿射变换参数:在这里插入图片描述都是一个2*3的仿射变换矩阵,分别对应两个平移,两个旋转,两个尺度参数。这些参数是通过LN模块的卷进层+两个FC层学习到的,其中最后一个FC的bias参数初始化不同而带来学习不同的M个不同patches(前面说了不够),PGN经过LN后再经过patch sampling grids和the sampler两个模块就可以完整的裁减出M个patches了。然后由于M个patches分别对应M个不同的图像区域,其语义信息也不同,因此需要使用M个独立的CNN分支分别提取鉴别性patch特征,就像学习M个不同属性那样。But,这是unlabeled数据,怎么学习?作者提出了下面两种损失来进行监督。

3.2.2 Patch-based Discriminative Feature Learning PEDAL

每个分支用一个损失函数来监督(图2patch后面的CNN部分),所有分支在形式上式一样的。在这里插入图片描述
在这里插入图片描述
但作者指出,以上过程需要将这个batch内的每一张图像的m-th个patch的特征(以m-th patch为例说明问题,其余patch同理)和所有训练集图像的m-th个patch的特征计算相似度,根据相似度将它们pull和push,这就类似于测试过程中probe和gallery的关系,我们知道:即使是计算简单的cos相似度,这个可近似看做“度量学习”的过程也是相当耗时的;即使是优秀如KISSME和triplet的度量学习方法,也会出现probe的检索结果中rank较高的图像与probe的相似度不太高而rank较低的图像与probe的相似度很高的现象,因此这种计算相似度的过程我们其实希望只在最后的测试阶段做(2017年的PUL中就是在测试之前引入了计算相似度的过程,因此性能不算很高),而本文则脱离了这一过程,引入了和ECN类似的内存机制(这种内存机制估计是出自哪一篇文章),略有不同。作者设计了一个patch feature memory bank来存储这些patch特征,设训练集图像数量为N,存储体记为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以上过程看似很普通,但却解决了几个问题:在这里插入图片描述
将计算相似度的过程转变为计算和存储体差异的L2范数了;而根据对式2的推导(从原始式2也不难发现)可以发现,尽管式2表面上类似于一个分类的形式,但作者没有想办法打伪标签,而是将一直以来“用分类来解决reid”的思想退还为检索问题(pull相似和push不相似),而reid正是一个检索问题,用检索的方法来做才是正道。当下的方法多数是:softmax和triplet损失联调,基于ResNet50网络的backbone去掉最后两个fc而加上一些分类的fc层,本质上没有逃离分类的圈子,而联调效果好也正是因为用分类(softmax)做reid不够,必须用基于检索的度量学习损失(triplet)才能带来性能的进一步improve。作者成功解决了这一问题。并且这种存储体结构设计和ECN一样,是一种不仅仅考虑一个batch内样本关系,而是考虑整个数据集内的样本关系的一种方法,从ECN可以看出这一策略能提点很多。

讨论:

根据图3的实验可以看出,如果直接pull视觉/外观相似的图像对而push视觉/外观不相似的图像对势必导致模型对于不同id的相似图像的鉴别力不够,如图3c所示。而如果pull视觉/外观相似的patches对而push视觉/外观不相似的patches对,如图3ab所示,可以很好的解决这一问题,虽然pull视觉/外观相似的patches也会略微导致模型对于不同id的相似图像的鉴别力不够,但id其实不是由某一个patch决定的,而是由很多patch共同决定的,因此我们还有IPFL损失来补救。即使没有,如图3a所示,我们pull了不同id的黄色T恤的上身patch,但如图3b所示,我们会因为它们下身裤子的不同而push开它们。

3.2.3. image-level patch feature learning loss (IPFL)

目的是为了进一步监督最小化类内差异并最大化类间差异,这次和监督reid一样用triplet的rank loss来监督。那triplet怎么获取?

首先要明确的是这里用的是图像级的综合信息,global,很好理解。然后anchor就是输入的图像,将该图像通过一系列图像变换如crop,scale,rotation,brightness,contrast和saturation等就得到所谓的代理正样本。而负样本则是通过循环ranking挖掘到的。

所谓循环ranking,其思想是互近邻的概念,即我在你的rank结果中,而你也在我的rank结果中,则我和你是相同id样本的概率就很大(ZhongZhun的re-ranking,2017);那反过来,我在你的rank结果中,而你不在我的rank结果中,则我和你是不同id样本的概率就很大。如下图4:
在这里插入图片描述
在这一块其实使用了前面说的测试之前计算相似度的问题,这一过程确实是为引入错误的(可以在测试时看rank结果的相似度就可以发现),但好在作者仅仅是为了挖一个硬负样本,就算挖错了,也很大概率是负样本而非正样本(负样本比正样本多),因此问题不大。

操作:对一张图像(query)按照测试时一样做rank,得到rank list;取top1作为新query,ranking,看query是否在新query的rank list的top-r中,不在则说明该top1是硬负样本,否则说明不是,继续;再看top2,top3,…直到找到了指定个数的硬负样本,我们这里只找一个最难的,而硬负样本的位置在query的rank list中位置越靠前,说明越hard,因此指定只挖掘一个硬负样本也就是最难的那个。
注:以上均在一个batch中进行。

找到triplet的图像后,接下来就是将这些图像通过网络得到的patch特征(s)各自concat起来就是图像特征(测试时也是取这个作为图像特征的),三个特征的三元组损失为:在这里插入图片描述

3.3. 总优化目标

在这里插入图片描述

4. 实验

注:和MAR一样,用了MSMT打辅助预训练PatchGAN了(和MAR一个组的作品),仅这一点就提点很大
MAR传送门:MAR

4.1. 实验细节

  • CNN的backbone选ImageNet上预训练的ResNet50,去掉最后的2个fc(用MSMT预训练这个过程没有完全逃出分类网络这一过程,但已标注的数据用分类网络确实强过检索(ZL,IDE)),最后一个残差块的stride改为1
  • 每个分支输出的最终向量维度设置为256
  • PGN用不同初始化来锁定不同区域(理论上是不够,会重叠的;但作者没有用这一点仍然学习得很好了,图6,每个patch提取基本都锁定在同一区域,且在没有高级特征指导的情况下(ZZD,PAN)仍然关注的是行人区域,其定位网络的进一步改善可能性不大)
  • PEDAL中的k超参取10,s超参取10/30(D/M),l更新率超参取0.1
  • IPFL中r超参取3,m超参取2
  • 总损失中lambda超参取2
  • PatchGAN在MSMT上预训练,之后用unlabel数据训练时不再使用MSMT,并固定PGN
  • 图像输入resize为384*128
  • 每个batch输入40张真实图像和经过图像变化的40张代理正样本(每张图像生成一张代理正样本)
  • SGD优化,lr为0.0001,每50epoch除10,60epoch结束训练
  • patch特征(s)concat作为行人描述符–测试
  • 获取代理正样本时的图像变化策略(每张图像变化时从下面随机选一个)
    ** crop:随机crop图像的70%~95%处理
    ** rotation:随机旋转图像10度
    ** contrast,brightness和saturation:随机变化原来的80%~120%

4.2. 和SOTA比较

在这里插入图片描述在这里插入图片描述
Duke上挺高的,但其实用MSMT预训练了,不算公平比较
作者说好的原因在两个方面:不同数据集之间图像存在的gap比patch存在的gap大;结构有效

4.3. 消融

在这里插入图片描述
第二行的结果和作者说的一致,对相似图像pull到一起会使鉴别性降低,不利

4.4 更深的分析

学习的patch的可视化:

在这里插入图片描述
框出来的区域对齐得很好,只进行了简单的不同初始化达到这种效果其实很厉害。

PGN:

在这里插入图片描述
第一栏是随机选patch,第二个是选择equal的水平stripe做patch的效果。

几个超参的影响

在这里插入图片描述

其他数据集上的效果

在这里插入图片描述

在不同数据集上预训练模型的影响

在这里插入图片描述
MSMT上预训练然后在Market测试的性能只有68.5%,说明模型还是很有效的,不是完全依赖于大的MSMT预训练的。在Market上预训练,Duke上测试的效果不行,只有56%,主要原因是MSMT和Duke有更多common的patch,而M和D则没有这么多common的patch

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值