Attention-based Few-Shot Person Re-identification Using Meta Learning

15 篇文章 0 订阅

一、介绍

作者使用元学习的方法,通过构建gallery encoder和probe encoder使得gallery image图片能够根据其余gallery images提取特征,probe image能够根据gallery iamges提取特征,达到了很好的效果,few-shot的情况下就超过了全监督的方法。

作者指出,当前行人重识别存在两个挑战:

一是每个行人包含的样本很少。基于分类的模型比基于匹配的模型(如孪生网络)表现的更好,但是需要更多的训练样本。基于匹配的模型方面,现在有很多使用三元组及其变种的方法。但是,训练三元组的网络难度较大,需要特别的算法,如hard negative mining来选择三元组,否则很容易由于选择三元组不当导致陷入一个不好的局部最优或者收敛很慢。而且,三元组损失仅在训练阶段考虑到了三元组图片间的关系,测试阶段则没有考虑到图片之间的关系,在测试时泛化能力不好。

二是如何在提取特征时考虑到probe和gallery图片间的关系。视角(cross view)和视域(intra view)关系在行人重识别中扮演了重要的角色。现有的方法在提取probe特征时很少有关注整个gallery,提取更具判别力特征的。现有的二元组、三元组方法之考虑到了图片对间的关系,有很大的局限性。基于分类的模型通过使用softmax层以含糊的方式考虑了所有图片间的关系,但是gallery图片中每个图片提取特征时仍然是独立的,没有考虑到gallery图片内部间的关系。

作者提出方法的贡献有以下三点:

  1. 利用元学习的概念,构建了一个端到端的基于注意力的行人重识别框架,能够进行few-shot learning
  2. 设计了基于注意力的gallery encoder,能够利用到gallery images之间的intra-view和crosee-view的关系,提取出更有代表性和判别力的特征
  3. 设计了基于注意力的probe encoder,能够利用probe和gallery images之间的cross-view关系。还能利用gallery images之间的不同类关系来更好地提取特征。

二、作者的方法

2.1 Gallery encoder

gallery encoder为常见的LSTM范式,即x_t-1,c_t-1,h_t-1作为输入,进过一级LSTM计算得到x_t,c_t,h_t。多级运算后,最终的h_t作为输出。这里输入x_t始终是要编码的图片经过CNN的特征f(y_j),h_t-1和gallery context注意力向量r_t-1级联后作为LSTM新的输入。r_t-1时是gallery context注意力向量,显示当前编码gallery图片和gallery其余图片间的关系。具体计算方式如下式:

2.2 Probe encoder

probe encoder和gallery encoder基本相同,不同的是r_k-1是probe和整个gallery的关系。而gallery encoder是gallery中编码图片和gallery中剩余其他图片间的关系。具体计算公式如下: 

2.3 Attention-based Matching

匹配比较简单,计算编码后的probe和gallery向量间的L2距离,然后使用一个类似sofrmax的函数,根据距离的大小得到输入各类的概率。训练时对所属的类别取log(.)然后梯度下降即可。

2.4 Meta-learning for few-shot reid

元学习的原则是分两个层次学习。一层是learner,针对特定的任务进行学习。一层是meta-learner,指导learner进行学习,通过多个不同的任务训练多个不同的learner,在这些任务中积累知识和经验。这就和标准的机器学习方法有很大的不同,标准的机器学习方法针对单个的任务,测试的样本也是同样任务的保留样本。

在这篇文章中,作者使用元学习来设计小样本的行人重识别模型。在作者的模型中,attention-based matching模块作为learner,CNN和LSTM作为meta-learner,使用随机梯度下降法进行训练。作者指出,他们的元学习模型涉及到将神经网络(CNN和LSTM)与无参数的结构结合在一起,并且学习了一个度量空间在这里学习起来效率很高。这里无参数的机构是指使用gallery set作为memory,使用注意力机制从里面检索信息(attention-based matching)。区别于传统的将训练过程中见过的样本都编码到网络权重中的方法。

作者的元学习行人重识别模型通过多个matching tasks训练,然后用新的matching tasks来测试,即在测试阶段识别新的identities。作者的模型不需要在它未见过的identities上进行微调,因为它的non-parametric nature。

三、实施细节

 训练和测试阶段使用的数据使用的数据组织方式一样。N_s-shot, N_c-way的范式,训练时从训练的ids随机选择N_c个identities,每个identity选择N_s个样本组成gallery set G. 然后每个identity选择一个样本组成B_probe,G和B_probe组成一个episode。重复的在训练的ids中选择不同的identities来组成episode。每个episode是一个不同的任务,用这些episodes来训练meta-learner。

1-shot setting时bs=21, 5-shot setting时bs=16, LSTM的T=100。当N_s小于6时,在图像的中心随机裁剪作图像增强。

所有实验中测试的episodes是100路的设置(N_c=100),对于有751个测试样本的Market1501数据集,测试结果是episodes的平均值(进行100路的设置,多个episodes后取平均值)。

四、实验结果

证明了Probe encoder和Gallery encoder的作用,其中Probe encoder的作用更大。 

说明欧几里得距离比cosine距离效果更好。 

和state of the art的对比,超过了现有的state-of-the-art(使用few-shot就超过了全监督的方法)。 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值