Exploit the Unknown Gradually: One-Shot Video-Based Person Re-Identification by Stepwise Learning

15 篇文章 0 订阅

在这篇论文中,作者提出了通过逐渐利用未标注样本,来解决单标注样本(one-shot)情况下的视频行人重识别问题(video-based person re-ID)。这个方法简单通用,在MARS和DukeMTMC两个视频行人重识别数据集上都达到了远超 state-of-the art 的性能。

1. 论文概述

为什么需要关注单标注(one shot)样本问题?

目前大多行人重识别方法都依赖于完全的数据标注,即需要对每个训练集里的人在不同摄像头下的数据进行标注。然而对于实际的监控场景,如一个城市的监控视频来说,从多个摄像头里手工标注每段视频的行人标签的代价很大。因此我们尝试去只用单标注样本,让网络自己去学会利用那些未标注的样本。也就是说对于每个行人,我们只需要标注其中一段视频,其余的视频通过算法自己去探索。

目前的基本方法:对于这个任务,典型的做法是为未标注数据估计一个标签,然后用初始的标注数据和部分选定的带有假定标签 (pseudo-label) 的数据用来训练模型。

目前方法存在的问题:然而因为只用初始标注数据训练出来的模型性能太弱,可信的 pseudo-labeled 数据是很少的,这样选择数据注定会引入很多错误的训练样本。基于大量错误训练样本训练的网络制约了其性能的提高。

作者的创新点:作者提出了 EUG(Exploit the Unknown Gradually)方法,迭代地去预测标签和更新模型,这样一步步地利用未标注数据。另外,作者发现直接用分类器预测出来的标签是不可靠的,他们提出通过特征空间里面的最近邻 (Nearest neighbor) 分类方式,去给每个未标注数据分配 pseudo label。

2. 作者的方法

如图,我们一开始用有标注的数据来初始化训练 CNN 模型,之后在每一次循环中我们(1)挑选可信的 pseudo-labeled 数据 2. 用标注数据和 pseudo-labeled 数据一起来更新 CNN 模型。我们通过逐步增大每次加入训练的 pseudo-labeled 数据量,从而逐渐去利用更难识别的,包含更多信息多样性的视频片段。

细节详述:

(1)算法流程是什么样的?

(2)CNN model的具体结构是什么样的?

作者用的是ETAP-Net(移除最后分类层的ResNet50),他是ResNet50针对视频输入的改进版。进行分类训练时加了一个时域pooling层和一个全连接层(有bn)和一个分类层。对于每个tracklet,所有的帧经过ETAP-Net获得特征嵌入,然后在时域pooling层对特征嵌入的每个元素取平均作为tracklet的特征。训练时,ResNet50的前三个residual blocks参数固定不动(为了省显存和加速训练)。训练时,作者随机从每个tracklet采样16帧作为输入。在label estimation和evaluation时,每个tracklet的全部帧都用上,不经过全连接层和分类层,并且将网络输出特征进行L2正则化(每行除以该行的二范数,保证了每行的平方和为1),然后再计算特征间的L2距离。作者使用SGD优化,momentum=0.5,weight decay=0.0005,epochs=70,batch_size=16. 前55epochs lr=0.1 后15epochs lr = 0.01

(3)如何决定每次选取多少 pseudo-labeled 数据做训练?

作者通过的递推关系来选择pseudo labeled数据扩充训练集,其中p为enlarging factor (EF)。即每个训练step,根据最近邻算法:先算出无标签数据集中每个无标签数据距离已标签数据的L2距离,然后选择最近的作为他的prediction label,然后从中选取p*nu个距离最小的连同它的prediction label组成pseudo labeled数据加入训练集,开始新的一轮训练。每个step都完成一次CNN网络的训练、一次选取pseudo labeled数据扩充训练集的操作。共进行(100//EF + 1)个step。作者还发现,越小的EF,网络越鲁棒,识别效果越好。

(4)如何给未标注数据分配 pseudo label 并量化其可信程度?

Classification loss criterion:之前大部分 re-ID 的方法使采用的也是一个行人分类网络,对于未标注样本,网络分类的预测值(Classification score)用来预测标签并判断标签置信度的。但是这样做的缺点使因为最初样本量很少,特别是单标注问题下每个类只有一个样本,这样做的误差较大,很多pseudo label并不准确,这样就相当于在训练集中加入了不正确的数据,不利于网络性能的提高。

Dissimilarity cost criterion:作者通过计算未标注数据与标注数据之间的L2距离(Dissimilarity cost criterion),对于每个未标注的样本,把离它最近的有标注样本的类别赋予它作为 pseudo label,并且将他们之间的距离的相反数作为标签估计的置信度,如下图所示。作者通过实验证明,这种用距离度量的方式选出来的 pseudo-labeled 数据要比分类层的预测要可靠的多。

(5)算法分配pseudo label的实际效果如何?

作者的方法在 MARS 和 DukeMTMC-VideoReID 这两个大规模的视频行人重识别数据集上都取得了极大的提高。下面展示了算法选出来的 pseudo-labeled 样本。

这是一个算法运行时为左边这个行人选出来的 pseudo-labeled 样本,可以看到在第 0 次迭代时返回的样本都是和初始化视频很相似的正确数据。算法在第 1 次和第 2 次迭代时候开始返回了不同视角的正确数据,在第 5 到 7 次迭代时候返回了更难以分辨的正确样本(完全不同的视角、遮挡和严重摄像头色差)以及部分错误样本。没有被找到的这个视频片段几乎是全黑的。

3. 实验结果

可以看到,p越小效果越好。作者的方法相比于state of art (DGM和Stepwise),在MARS上rank1有21.46% mAP有22.8%的提升 。作者同时指出, Baseline (one-shot) and Baseline (supervised) 是他方法的下界和上界。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值