【深度学习】聚焦机制DRAM(Deep Recurrent Attention Model)算法详解

最新推荐文章于 2024-08-15 14:15:00 发布

shenxiaolu1984

最新推荐文章于 2024-08-15 14:15:00 发布

阅读量1.4w

点赞数 8

分类专栏：论文解读文章标签：深度学习算法 attention deep-learn

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/51518578

版权

本文深入解析了DRAM（Deep Recurrent Attention Model）算法，该模型结合了聚焦机制、循环神经网络和增强学习，用于图像中的多目标识别。通过小范围观察和循环更新，模型能逐步定位并识别图像中的手写数字串。训练过程采用强化学习策略，通过采样和误差反馈优化网络参数。

摘要由CSDN通过智能技术生成

Ba, Jimmy, Volodymyr Mnih, and Koray Kavukcuoglu. “Multiple object recognition with visual attention.” arXiv preprint arXiv:1412.7755 (2014).

思想

三位作者均来自于风头正劲的Google DeepMind，三作Koray Kavukcuoglu在AlphaGo的Nature论文中榜上有名。

本文执行的任务相对简单：从图片中识别长度、位置未知的手写数字串。但包含了当今神经网络的诸多热点方向，包括：

聚焦机制(Attention)：每次只看输入的一小部分，诸次移动观察范围。
循环神经网络(Recurrent NN)：在每一次移动和输出之间建立记忆
增强学习(Reinforcement learning)：在训练过程中，根据不可导的反馈，从当前位置产生探索性的采样。

本文和前一篇文章中介绍的RAM(Recurrent Visual Attention Model)算法极为相似，但是更侧重数学推导。建议先阅读这篇博客中的解读。
对于增强学习没概念的同学，也可以参考这篇博客：Torch中的增强学习层

模型

核心数据

$X$ : 输入图像
$n$ : 步骤序号，共有 $N$ 个步骤，每次查看图像一小部分。
$l_n$ : 第 $n$ 步查看的图像位置。整数类型xy坐标，图像中心为(0,0)，图像边缘对应的坐标为系统超参数，决定搜索粒度。
$x_n$ : 第 $n$ 步观察到的图像内容，称为glimpse。是以 $l_n$ 为中心，尺寸相同，缩放和范围等差的图像金字塔。
这里写图片描述
特别要注意的是： $x_n$ 没法对 $l_n$ 求导。