细粒度分类：Diversified Visual Attention Networks

最新推荐文章于 2024-04-28 17:38:59 发布

Paul-LangJun

最新推荐文章于 2024-04-28 17:38:59 发布

阅读量1.6k

点赞数 1

分类专栏：神经网络机器学习文章标签：细粒度 LSTM 图像分类注意力 DVAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/124390036

版权

神经网络同时被 2 个专栏收录

45 篇文章

订阅专栏

35 篇文章

订阅专栏

一、介绍

本文简单介绍一下一篇细粒度文章的大致思想，题目是Diversified Visual Attention Networks for
Fine-Grained Object Classification（多元可视注意力细粒度分类网络），缩写为DVAN。文章不是很新，但通篇读过后觉得值得总结。

二、引入了什么

下图中，不同鸟类的通过视觉可区分的部位主要是眼镜、胸部和翅膀，通过DVAN可以自动的发现这些视觉可区分的部位，从而实现正确分类不同品种鸟类。

DVAN引入了一种能力——能够自动发现可以区分不同种类目标的一个或者多个局部区域，并对这些区域进行特征提取和分类，这是该文的贡献。思想很简单，区分两个外观相似的对象，需要从一个甚至多个局部区域做出判断，也比较符合人的认知。

三、整体框架

DVAN的整体框架如下图所示。主要由四个部分构成：

注意力画布生成。从输入图像中采样多个不同尺度和大小的子区域。
特征学习。通过CNN网络学习第1步中采样的图像子区域的特征。
多元注意力学习。使用LSTM，借助输入的CNN特征映射学习多个注意力映射，每个注意力映射都有侧重点，并通过注意力映射动态池化CNN特征映射。
分类。LSTM每个时间步都会预测图像的类别输出，所有时间步的平均为最终预测结果。

三、注意力画布生成

画布生成从原始图像的不同位置（通过横向、纵向、步长控制）crop出多个尺度和大小不同的子图像，图像中所有的可辨识区域基本能够覆盖，如下图所示。最后将所有的子图像按照尺度从小到大排序（小尺度侧重目标整体，大尺度侧重目标局部），并统一resize为224x224，输入特征学习模块。

四、多元注意力学习

选择时序模型的原因是同时发现所有可辨识区域很困难，但是通过逐步学习的方式就很简单，时序模型就比较适合做这个；而选择LSTM的原则是它有记忆功能，可以防止网络将之前学习到的知识遗忘。参考：理解 LSTM 网络

该模块结构如下所示.上半部分是LSTM的原生结构，输入是 $x_t$ ，下半部分是注意力映射预测与 $x_t$ 的生成， $x_t$ 是特征映射和注意力映射相结合的产物，作为LSTM每个时间步的输入，LSTM每个时间步的输出是 $y_t$ ，将用于后续分类模块的输入。

五、模型训练

DVAN的训练分为三个步骤：

微调在ImageNet上预训练的CNN模型，提取图像特征用于后续注意力的定位；
固定学习到的CNN特征，训练多元注意力学习模块；
整体训练CNN特征提取模块和多元注意力模块；

博客等级

码龄13年

161
原创

379
点赞

1316
收藏

154
粉丝

关注

私信

热门文章

分类专栏

c
java 31篇
c++ 14篇
数据结构与算法 45篇
重构 2篇
数据库 5篇
android 8篇
设计模式 6篇
面向对象 14篇
多线程 16篇
think in life
Linux 11篇
机器学习 35篇
概率与统计 21篇
神经网络 45篇
Python 18篇
大数据 3篇
分布式 6篇
爬虫 1篇
正则表达式 1篇
线性代数 7篇
最优化方法 4篇
前端技术

最新评论

java中共享内存的实现
Paul-LangJun: 学习了，确实这块学习的不是很透彻
java中共享内存的实现
多冷啊、我在东北玩泥巴: 在linux中文件要写到/dev/shm才是真正的共享内存，或者你自己挂载一部分内存到其他目录，并且告知其他进程使用同一目录作为共享内存的存放目录，c语言在linux系统实现的shm方法的实现就是写到/dev/shm下，包括很多库都是从在这个目录实现共享内存，因为这个linux默认挂载的，你这种方式如果写到普通磁盘目录只是实现了文件的随机读写
理解KKT条件
海蓝菌: 解释的很清晰呀学到了
矩阵乘法的优化
m0_65000939: 分块那个不太对，如果说不是恰好分成块，有剩余的话，后面那部分算剩余的没算完全。
深度学习中的He初始化
Paul-LangJun: y = wx, 相当于多个均值为0的对称分布的加权，其最终的变量y的分布也是均值为0的对称分布，可以搜下概率轮方面的材料

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。