RAM: Recurrent Models of Visual Attention 学习笔记

论文解析

看了论文【1】和博客【9】【10】,我对RAM进行总结。要看懂这篇论文,需要强化学习中的policy-based learning和RNN的相关知识。如果对policy gradient,policy function等等概念不清楚的话,看论文就只能从字面上理解。对RL,RNN方面的介绍,可以看我之前的博客以及博客里面推荐的论文看看。其实这个RAM真的是属于很简单的模型,里面用到的RNN居然还是SimpleRNN,我在看Torch源码的时候,发现这个RNN连hidden layer都没有(但是在Torch的源码里面索引的论文是有一个hidden layer的,当然可能是我看源码的时候看错了,非常有可能,看我的这篇博客:RNN以及Torch中的实现)RL采用的是Policy-based model,论文是九几年的,果然很有年代感。在对policy-based model这里可以看我的博客policy gradient 推导,不看这些推导根本不知道为什么要加入baseline,以及更新的时候为啥使用的是gradient ascent的方法。另外我会解释一下代码中的minibatch,momentum,step,dropout,normalization这些概念,毕竟调参优化需要了解。

RAM model讲得是视觉的注意力机制,说人识别一个东西的时候,如果比较大的话,是由局部构造出整体的概念。人的视觉注意力在选择局部区域的时候,是有一种很好的机制的,会往需要更少的步数和更能判断这个事物的方向进行的,我们把这个过程叫做Attention。由此,我们把这个机制引入AI领域。使用RNN这种可以进行sequential decision的模型引入,然后因为在选择action部分不可导,因为找到目标函数无法进行求导,只能进采样模拟期望,所以引入了reinforcment leanrning来得到policy进而选择action。先说一下recurrent attention model如何实现,然后再说一下可以运用在哪些地方,以及相比别的现有的方法有什么优势。

首先介绍RAM的大致的架构:
这里写图片描述
首先输入时一副完整的图片,一开始是没有action的,所以随机挑选一个patch,然后送入了RNN网络中,由RNN产生的输出作为action,这个action可以是hard attention,就是根据概率a~P(a|X)进行采样,或者是直接由概率最大的P(a|X)执行。有了action以后就可以从图片中选择某个位置的sub image送到RNN中作为input,另外一方面的input来自于上一个的hidden layer的输出。通过同样的网络经过T step之后,就进行classification,这里得到了最终的reward,(把calssification是否判断正确作为reward)就可以进行BPTT,同时也可以根据policy gradient的方法更新policy function。可以发现这个网络算是比较简单,也只有一个hidden layer,我觉得应该是加入了RL之后比较难训练。

接下来进一步解释网络,因为具体的网络输入输出是啥,维度多少,具体操作都没有说清楚。根据论文中的图来解释:
这里写图片描述

  • 图A:此部分称之为Glimpse Sensor,也就是感应器,其实就是给定一个图片的location(坐标,这个坐标为中心),采集一副大的图片的子图,因为使用的MNIST的图片,所以只有一个通道,黑白。另外,采集图片的尺寸不一样,有的图片采集的scale更大,从A中来看是采集了三个size的图片,然后进行sub-smapling获得同意尺寸的图片8x8(在Torch代码中,这个下采样图片个数变成了2)所以输入的locator(定位器) lt+1 和整副图片 xt ,得到了进行采样之后的n个子图片表达 p(xt,lt1)
  • 图B:总的输出是 g
  • 8
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值