BDB(ICCV2019)

论文链接:https://arxiv.org/abs/1811.07130
github:https://github.com/daizuozhuo/batch-dropblock-network
作者知乎简介:https://zhuanlan.zhihu.com/p/53241545?utm_source=qq&utm_medium=social&utm_oi=817295961469632512

《Batch DropBlcok Network for Person Re-identification and Beyond》

 Batch DropBlock是基于Person ReID提出的模型,简单且效果好。不过,它同样是一种泛化性强的策略,它不仅局限于Person ReID,而是可以应用于所有的图像检索任务中。作者将BDB定位为“用于度量学习的一种注意力特征学习模块”,它可以广泛应用图像特征提取任务中(这也就是为何论文标题最后有个“and Beyond”)。

 ReID网络的核心就是提取准确、鲁棒的特征,直接将CNN应用在全图上容易使网络过于关注全局特征而忽视重要的细节特征(因为脸、手、脚等特征会因视角变化等因素而十分不稳定),因此学者们致力于如何提取更鲁棒更全面的特征,比如基于姿态或其他方法来关注人体不同部分的特征(比如PCB-RPP就是典型的part-based模型)。

 作者认为,这种切分特征图的本质,其实就是为了让网络不太关注于那些太显而易见的全局特征。Person ReID是一种ZSL问题(zero shot learning),仅仅全局特征是很难有好结果的。而且主流行人数据集都较小,这容易导致过拟合。基于此,作者提出了BDB策略,即对一个batch的特征图,随机遮挡住同样的一块区域,强迫网络在剩余的区域里去学一些细节的特征。

 整体框架如Figure 3所示,模型基于RestNet-50的输出,并接入两个branch:

  1. Global Branch: 对特征图直接做GAP,然后通过卷积提取出512维特征;
  2. Feature Dropping Batnch: 将特征图通过一个BottleNeck,然后加入Batch Mask并进行GMP,然后通过卷积提取1024维特征。
    在这里插入图片描述

这里需要进行几点说明:

  1. global branch使用的是GAP,即保留了原版ResNet-50的策略;而feature dropping branch使用的是GMP,因为当区分性最强的特征被mask掉时,GMP能够使网络从剩余特征中提取保留相对重要的特征(若使用GAP,所有剩余特征,包括噪声特征都会对输出产生一定影响)。
  2. 框架中取消了原ResNet-50中Stage3后面的DownSampling,从而获取更大的特征图(2048248)。
  3. 损失函数使用的是soft margin batch-hard triplet loss + softmax loss
  4. 作者用实验证明,global branch除了可以提供全局特征外,还可以使feature dropping branch得到更好的训练结果。具体而言,global branch对feature dropping branch有监督作用,且可以使得feature map更加可靠。
  5. 关于feature dropping branch中为何加入一个bottleneck结构,作者的理由是,如果没有它,两个分支的GAP和GMP将同时作用于feature map上,这使得网络不容易收敛。

 基于上述框架,作者用CAM(Class Activation Map)来展现BDB框架的优势,如图Figure 1。可以看到,加入feature dropping branch后,模型可以学习到更多更细节的重要特征。
在这里插入图片描述
 另外,不论是BDB的命名,还是其思路上,或许都部分参考了DropBlock(NIPS2018)(以下简称DB)的处理方法。不过作者认为BDB和DB有两个重要区别:

  1. DB是各个特征图上随机mask一块区域,而BDB是在一个batch上mask同一块区域。
  2. DB是一种用于分类任务的正则化策略,而BDB是用于度量学习的注意力特征学习模块。 确实,DB是参考dropout的正则化思路,基于CNN网络的一种应用;且与cutout不同的是,DB是在feature map上进行随机mask一块spatial block(cutout是在输入图上随机mask一块spatial block)。而BDB则是一种特征提取模块,且它和loss function是息息相关的,对于loss function的同一批输入,mask的区域理应相同(否则若一个mask掉头部,一个mask掉腿部,就不容易找到它们在语义上的相似性了)。

 作者也做了很多消融实验(对比实验),来讨论网络各个部分的细节,并且作者将cutout应用在BDB上发现可以带来性能的进一步提升。总之,模型的mAP效果确实很出众。

 而且,BDB的策略不局限于Person ReID,作者用实验证明,它可以在更多的图像检索任务中获得出色的结果,并在度量学习中对基于其他loss function的模型也有显著的提升作用。

总结: 我第一遍粗看这个文章和网上一些解析时,觉得这个模型十分简单。不过今天再次细读,发现作者其实在很多细节上都做了精心实验和设计,最终才得到了这个看起来简单而性能强大的模型。除了敏锐的创新思维外,实验中的各种优化策略也很重要,比如作者在知乎发文后受网友提醒,在BDB中加入了warm up策略,使得原本网络又有了进一步提升。另外,令我感叹的是,人们为了解决Person ReID而在人体划分方向做了很多研究,现在却没有敌过一个思路更简单、泛化性更强的BDB(至少mAP指标上是如此),原因何在呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值