细粒度分类:Diversified Visual Attention Networks

一、介绍

    本文简单介绍一下一篇细粒度文章的大致思想,题目是Diversified Visual Attention Networks for
Fine-Grained Object Classification(多元可视注意力细粒度分类网络),缩写为DVAN。文章不是很新,但通篇读过后觉得值得总结。

二、引入了什么

下图中,不同鸟类的通过视觉可区分的部位主要是眼镜、胸部和翅膀,通过DVAN可以自动的发现这些视觉可区分的部位,从而实现正确分类不同品种鸟类。

DVAN引入了一种能力——能够自动发现可以区分不同种类目标的一个或者多个局部区域,并对这些区域进行特征提取和分类,这是该文的贡献。思想很简单,区分两个外观相似的对象,需要从一个甚至多个局部区域做出判断,也比较符合人的认知。

三、整体框架

DVAN的整体框架如下图所示。主要由四个部分构成:

  1.  注意力画布生成。从输入图像中采样多个不同尺度和大小的子区域。
  2.  特征学习。通过CNN网络学习第1步中采样的图像子区域的特征。
  3.  多元注意力学习。使用LSTM,借助输入的CNN特征映射学习多个注意力映射,每个注意力映射都有侧重点,并通过注意力映射动态池化CNN特征映射。
  4.  分类。LSTM每个时间步都会预测图像的类别输出,所有时间步的平均为最终预测结果。

三、注意力画布生成

    画布生成从原始图像的不同位置(通过横向、纵向、步长控制)crop出多个尺度和大小不同的子图像,图像中所有的可辨识区域基本能够覆盖,如下图所示。最后将所有的子图像按照尺度从小到大排序(小尺度侧重目标整体,大尺度侧重目标局部),并统一resize为224x224,输入特征学习模块。

四、多元注意力学习

选择时序模型的原因是同时发现所有可辨识区域很困难,但是通过逐步学习的方式就很简单,时序模型就比较适合做这个;而选择LSTM的原则是它有记忆功能,可以防止网络将之前学习到的知识遗忘。参考:理解 LSTM 网络

     该模块结构如下所示.上半部分是LSTM的原生结构,输入是 x_t ,下半部分是注意力映射预测与 x_t 的生成,x_t 是特征映射和注意力映射相结合的产物,作为LSTM每个时间步的输入,LSTM每个时间步的输出是 y_t,将用于后续分类模块的输入。

五、模型训练 

    DVAN的训练分为三个步骤:

  1.  微调在ImageNet上预训练的CNN模型,提取图像特征用于后续注意力的定位;
  2.  固定学习到的CNN特征,训练多元注意力学习模块;
  3.  整体训练CNN特征提取模块和多元注意力模块;

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值