论文笔记--WS-DAN

论文名:See Better Before Looking Closer: Weakly Supervised Data AugmentationNetwork for Fine-Grained Visual Classification

论文链接:https://arxiv.org/pdf/1901.09891.pdf

随机的数据增强,如随机的图片裁剪,是一种低效的方法,并且可能引入许多意料之外的背景噪声。因此,作者提出了一种弱监督的数据增强网络。具体来说,就是对每一个图片先生成注意力图(attention map),来确定图片的有辨识度的部分。然后根据注意力图,做裁剪(cropping)和舍弃(dropping)操作。作者认为,如果模型只关注于目标的少量部件,则很容易因为不同目标间的姿态和视角差异得到错误的预测。因此,舍弃操作能够让网络能够关注更多的细节,并且不会忽略目标的其他部分。此外,也可以根据关注区域对目标的关键部件进行定位。具体如下图所示。这也是标题看地更好,然后看地更近的含义。

总体上,WS-DAN的主要贡献包括以下几点:1)提出了弱监督的注意力学习方法,能够生成注意力图,以此找到细粒度目标有辨识度的部件和提取局部特征;2)提出了基于注意力图的数据增强方法,包括裁剪和丢弃,让模型能够从中学到更有用的细节;3)能够使用注意力图准确地定位整个目标。

上图是WS-DAN的训练过程的流程图。A部分表示对原图片的特征提取过程,并根据过程中生成的attention maps,随机选择一个维度的attention map,进行attention cropping和attention dropping操作后,作为新的输入图片进行特征提取和训练。预测过程的特征提取过程与训练过程相同,并根据过程中生成的attention maps定位目标进行二次预测,结合两次的预测结果作为最终结果。

图中,feature maps的维度为H x W x N, 分别表示特征图的高,宽和通道数。Attention maps由feature maps经过卷积获得,维度为H x W x M。作者认为,attention maps中的每个大小为H x W的二维图,都代表着目标的某个部件的定位。

我个人认为这里的解释略显牵强。Feature maps 和Attention maps实际上就是一个卷积网络的某两个卷积层的输出。文中未提到具体的两者之间的具体的卷积函数,但从维度变化来看,似乎是M个卷积核大小为1x1的卷积层。

上图则展示了Bilinear Attention Pooling的操作。就是将M层attention maps分别与feature maps叠加(元素相乘),并分别通过池化操作展平成一维后,拼接成最后的特征矩阵。

在实验中,作者使用Inception v3网络作为主干网络,并选择了Mix6e层的输出作为特征图。在对比实验中,作者证明了attention cropping, attention dropping 和使用attention maps进行定位操作对提高性能的有效性,并在CUB-200-2011数据集上取得了89.4%的最好结果,展示了数据增强操作的有效性,为细粒度识别性能的提升提供了新的角度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值