循环注意力卷积神经网络——RA-CNN（论文笔记）

最新推荐文章于 2023-11-26 21:08:32 发布

本初-ben

最新推荐文章于 2023-11-26 21:08:32 发布

阅读量3.5k

点赞数 1

分类专栏：论文笔记文章标签：深度学习计算机视觉细粒度图像分类人工智能

本文链接：https://blog.csdn.net/qq_43673118/article/details/103139816

版权

论文笔记专栏收录该内容

4 篇文章

订阅专栏

一、前言

本文是对论文《Look Closer to See Better：Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition》的学习梳理总结，主要参考文献为论文原文——《Look Closer to See Better：Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition》，以及一篇博客——《论文阅读笔记 | (CVPR 2017 Oral) Look Closer to See Better：RA-CNN》

二、本文拟解决的问题

识别纹理细密的物体类别（比如鸟类）是很困难的，这是因为判别区域定位（discriminative region localization）和细粒度特征学习（fine-grained feature learning）是很具有挑战性的。现有方法主要都是单独地来解决这些挑战性问题，然而却忽略了区域检测（region detection）和细粒度特征学习（fine-grained feature learning）之间的相互关联性，而且它们可以互相强化。
本文利用这种相互关联性提出一种新的模型，来更好地处理细粒度图像识别的问题。

三、解决问题的方法

本文提出了一种全新的网络模型——循环注意力卷积神经网络（RA-CNN），用互相强化的方式对判别区域注意力（discriminative region attention）和基于区域的特征表征（region-based feature representation）进行递归学习。
在每一尺度规模（scale）上进行的学习都包含一个分类子网络（classification sub-network）和一个注意力建议子网络（attention proposal sub-network——APN）。APN 从完整图像开始，通过把先期预测作为参考，由粗到细迭代地生成区域注意力（region attention），同时精调器尺度网络（finer scale network）以循环的方式从先前的尺度规格输入一个放大的注意区域（amplified attended region）。
RA-CNN 通过尺度内分类损失（intra-scale classification loss）和尺度间排序损失（inter-scale ranking loss）进行优化，以相互学习精准的区域注意力（region attention）和细粒度表征（fine-grained representation）。RA-CNN 并不需要边界框（bounding box）或边界部分的标注（part annotations），而且可以进行端到端的训练。
下面是对RA-CNN模型的进一步讲解：

四、RA-CNN

RA-CNN
fig. RA-CNN结构框架
输入图像从上到下按粗糙的完整大小的图像到精炼后的区域注意力图像排列。
不同的网络分类模块（蓝色部分） 通过同一尺度的标注预测 Y(s) 和真实 Y∗之间的分类损失 Lcl 进行优化；注意力建议（红色部分) 通过相邻尺度的 p (s) t 和 p (s+1) t 之间的成对排序损失 Lrank（pairwise ranking loss Lrank）进行优化。
其中 p (s) t 和 p (s+1) t 表示预测在正确类别的概率，s 代表尺度。APN 是注意力建议网络，fc 代表全连接层，softmax 层通过 fc 层与类别条目（category entry）匹配，然后进行 softmax 操作。+代表「剪裁（crop）」和「放大（zoom in）」

每个scale网络有2个输出

分类
p(X) = f(Wc* X)
Wc: (b1)或(b2)或(b3)网络的参数,也就是一些卷积层、池化层和激活层的集合,用来从输入图像中提取特征.
Wc* X: 就是最后提取到的特征.
f()函数: 就是fully-connected层和softmax层,用来将学习到的特征映射成类别概率,也就是p(X).
区域检测
[tx, ty, tl] = g(Wc* X)
这里假设检测出来的区域都是正方形,即tx和ty表示区域的中心点坐标,tl表示正方形区域边长的一半.
g()函数: 也就是APN网络,可以用两个fully-connected层实现,其中最后一个fully-connected层的输出channel是3,分别对应tx、ty、tl。

损失loss

对应于每个scale中的两个子网络——分类子网络和注意力建议子网络（APN），损失loss包含两部分，用于对两个子网络的参数进行训练：
在这里插入图片描述

intra-scale classification loss

其中，Y(s) 表示预测的类别概率，Y* 表示真实类别标签
inter-scale pairwise ranking loss

-pt(s): 正确分类标签对应的预测概率值。
从Lrank损失函数可以看出，当更后面的scale网络的pt大于相邻的前面的scale网络的pt时，损失较小。即通过训练减少损失值，使得后面的scale网络预测更准。
由此可以看出，模型能够通过训练找到正确的注意力推荐框，并不训练人工进行标注。因此APN子网络的学习是无监督的。

于是这样的网络就可以得到输入图像X的不同scale特征,用{F1, F2, … FN}表示。
-N: scale的数量
-Fi: 第i个scale的分类子网络全连接层输出,文中称Fi为“descriptor”

融合不同scale网络的输出结果：
把每个分类子网络的最后的全连接层堆叠起来，然后将它们连接到一个全连接层，随后通过softmax层，进行分类。

训练步骤

初始化分类子网络: 用预训练的VGG-Net初始化分类子网络中卷积层和全连接层的参数；
初始化APN: 查找分类子网络的最后一层卷积层(conv5_4 in VGG-19)具有最高响应值(highest response)的区域，用该区域的中心点坐标和原图边长的一半来初始化(tx,ty,tl)；
固定APN的参数，训练分类子网络直至Lcls收敛；随后固定分类子网络的参数，训练APN网络直至Lrank收敛。这个训练过程是迭代交替进行的，直到两个网络的损失收敛。

相关实验部分见论文，此处省略。