论文笔记：Recurrent Models of Visual Attention

最新推荐文章于 2020-12-18 20:36:11 发布

Emma-SJ

最新推荐文章于 2020-12-18 20:36:11 发布

阅读量6.1k

点赞数 1

本文链接：https://blog.csdn.net/baidu_17806763/article/details/59595848

版权

本文提出了一种循环注意力模型（RAM），它通过选择性地关注图像的特定区域来处理大型图像，降低了计算复杂性。利用强化学习，模型能学习到有效的观察策略，在多个分类任务上优于卷积神经网络，并具有跟踪物体的能力。

摘要由CSDN通过智能技术生成

Recurrent Models of Visual Attention

戳这里下载训练代码，戳这里下载测试代码【基于torch】

摘要

由于卷积核的计算量跟图片像素个数大小呈线性关系，卷积神经网络对大型的图片的处理计算量巨大。我们提出一个RNN模型，能够从一张图片或者一段视频中提取信息，通过主观选择一系列区域或者位置，只对选中的区域在高分辨率情况下进行处理。本文提出的方法，据有内部平移不变性，但是计算量能够根据输入图片的大小独立控制。由于这个模型不可微分，他能够使用强化学习方法来学习特定的策略。我们在几个分类任务上评估了这个模型，结果显示，他能够比卷积神经网络的基准表现要好很多，并且在动态问题上，他能够跟踪一个简单的物体，并不需要一个明确的训练信号告诉它来做这件事情。

简介

此RNN模型能够顺序处理输入，在一个时刻根据一张图片内部的不同位置，把这些定位下的信息结合起来生成这个场景的动态内部表示。在每一步，该模型选择下一个位置，基于过去的信息和任务的需求。我们描述了一个端到端的优化方法，允许模型直接被训练根据给定的任务。这个过程使用BP来训练网络节点，还有一些梯度策略来解决控制过程中产生的不可微分问题。

模型（The Recurrent Attention Model）RAM

序列决策过程。在每个时间节点，agent通过指定宽度sensor来观察环境，它并不一次性观察整个环境，他可能提取信息仅仅通过部分区域或者一个窄频率宽度。agent能够自行决定在哪里放置sensor。agent也能狗影响环境的真实状态。在每一步，agent会收到一个梯度奖励（取决于agent执行的actions），agent的目的是最大化rewards的总数。
这里写图片描述
在每一步，模型处理sensor获取的数据，整合这些信息，然后选择action，以及如何放置sensor在下一步的时候。

Sensor
sensor可以观察环境，就是在location的周围信息，通过sensor位置的不同，可以观察到不同location的信息。并总结，传到后面用。
Internal State
h代表内部状态，对agent获得的信息进行编码。然后通过f方程决定下一步sensor的位置，以及本步骤结束后应该采取的action，这个action可以是分类。
Actions
分类两类，决定如何放置sensor，还有环境action可能影响环境的状态。对于分类任务而言，a 可以是softmax输出。
Reward
每次执行完一个action之后，agent会收到下一个location的信号，以及一个reward信号，agent的目的是最大化reward信号，这个通常是稀疏的并且会延迟。拿物体识别来说，如果物体在T步之后被分类正确，那么reward是1，否则是0.

上述过程被记为马尔可夫决策过程，真实的环境状态是不可知的，在此情况下，agent需要学习一个随机的政策，。在这里agent的police