Look Closer to See Better 阅读笔记

1) 摘要

现有的细粒度图像识别的方法忽略了区域检测和细粒度特征学习是相互关联的,并且两者可以相互加强。所以提出了循环注意力卷积神经网络(RA-CNN),该网络以相互增强的方式,在多个尺度上递归地学习判别性的区域注意力和基于区域的特征表示。每个尺度的学习包括一个分类子网络和一个注意力建议子网络(attention proposal sub-network (APN)),APN从完整的图像开始,以之前的预测作为参考,迭代的由粗到精产生注意力区域,而一个更细的尺度网络以之前尺度放大的注意力区域的重复方式作为输入。提出的RA-CNN由分类损失和ranking损失来相互学习注意力区域的准确度和和细粒度的表示。

2) 论文贡献

(1)针对细粒度图像识别的挑战提出了循环注意力卷积神经网络结构,该结构能够提高判别区域检测的准确性以及居于区域表示的特征学习;

(2)提出了pairwise ranking损失来优化注意力建议网络,与只有标签监督的区域定位相比,这种设计能够让网络逐步的定位到判别区域;

(3)在CUB Birds, Stanford Dogs, Stanford Cars三个数据集上进行的充分的实验,并且实现了最佳的结果

3) 模型结构

 

4) 注意力建议网络(Attention Proposal Network)

Zoom:使用线性插值操作来将得到的Crop放大到固定尺寸。

5) 分类和排序(Classification and Ranking)

这样的设计可以使网络能够从粗尺度作为参考进行预测,并且通过强制更精细的网络逐渐接近最具辨别力的区域以产生更高置信度的预测。(Such a design can enable networks to take the prediction from coarse scales as references, and gradually approach the most discriminative region by enforcing the finer-scale network to generate more confident predictions.)

6) 多尺度联合表示(Multi-scale Joint Representation)

一旦每个尺度的网络训练完成,为了利用特征集成的好处,首先将每个网络产生的特征进行归一化,然后将他们拼接在一起,再后接softmax函数作为最终的分类。

7) 训练细节

(1) 使用预训练的VGG网络结构, 三个网络具有相同的网络模型;

(2) 通过搜索原始图像中的区域来选择正方形,在最后的卷积层中具有最高响应值。

(3) 以交替的方式进行训练,首先保持APN的参数不变,来优化每个尺度的softmax损失,然后固定卷积层和分类层的参数不变,使用ranking loss来优化APN;

Input images (at scale 1) and attended regions (at scale 2,3) are resized to 448×448 and 224×224 pixels respectively in training, due to the smaller object size in the coarse scale. We use VGG-19 (pre-trained on ImageNet) for bird and car datasets, and VGG-16 for dogs as the same settings with baselines. We find that k in and the margin are robust to optimization, thus we empirically set k as 10 and margin as 0.05.

8)实验结果

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值