ICCV2019-行人重识别-Discriminative Feature Learning with Consistent Attention Regularization for Person

动机:

在re-id数据集中,一个样本图像由有效的前景信息(行人信息)和无效的背景信息(背景干扰)信息构成。所以说,能否有效学习到面积只占整个图像一部分的行人信息,即Discriminative Feature,就是了一个良好re-id模型的关键。
目前的常见的提取行人信息的方案各有利弊,最容易想到的方法便是使用annotated mask,但这种方法引入额外的标注,并且样本分辨率低,所以mask也不一定很准。

创新:

  1. 作者设计了一个attention module,意在得到不同特征下的行人mask,其中采用三种尺度的空洞卷积,减少参数量的同时增大感受野。
    在这里插入图片描述
  2. 深层次的特征图语义信息更丰富,所以会得到更高质量的行人mask,通过不同层的layer后,不同的attention module将得到不同的heatmap。已知行人mask的区域在不同的heatmap上的位置都是固定的,所以将这些heatmap信息,通过consistent attention regularizer这种正则化,让这些mask尽量一致,从而形成了一种正反馈的过程,让低层的特征得到的mask也会更准。
    在这里插入图片描述
    如图(b)所示,通过不同级heatmap的正则化,浅层的mask也会有较为精准的mask。
    在这里插入图片描述
    正则化的公式如图:前者为相邻特征图的差的F范数,即希望相邻特征图的差距变小,这个很好理解,但是后面是单个特征图的1范数,这个我没想明白,作者解释为特征筛选,希望可以丢掉假阳例,依旧没明白。。。
  3. 改进triplet loss,当 η = 0 , 1 \eta=0,1 η=0,1时,该三元损失函数为普通的三元损失函数,这个和mixup基本一致:
    在这里插入图片描述

框架:

在这里插入图片描述

  1. 框架结构:最基本的单流结构
  2. 特征:普通的加入attention module后得到的特征
  3. 损失函数:LS CE loss+改进的Triplet loss
  4. backbone:普通的resnet50,未使用last stride =1等

实验:

在这里插入图片描述
作者展示了最后得到的行人heatmap,在CUHK03上的效果非常好,并且这个heapmap的准确度应该与行人区域的大小成正比。
在这里插入图片描述

  • basline(S+BT)在market上, rank1为89.1,使用改进Triplet为93.4,提升很大
  • 在使用attention module后,最终rank1为96.1,不都不说每一个方法提升都很大

疑惑:

  • 深层网络虽然语义信息丰富,但位置信息很不充分,尤其是resnet第五次下采样后得到的特征图大小仅为8×4,这样正反馈的位置信息在正则化时是否会出现混淆?
  • 正反馈的缺点是若出现一点偏差则会越来愈大,但是作者展示的heatmap效果很好,看样子是没啥问题。
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值