2014-nips-Recurrent Models of Visual Attention论文笔记

最新推荐文章于 2020-12-18 20:36:11 发布

fe_ng_ji

最新推荐文章于 2020-12-18 20:36:11 发布

阅读量362

点赞数

分类专栏： machine learning reinforcement learning 多标签图像识别文章标签： reinforcement learning 图像分类 image detection

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39245207/article/details/84146491

版权

machine learning 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

多标签图像识别

6 篇文章 2 订阅

订阅专栏

reinforcement learning

4 篇文章 0 订阅

订阅专栏

1. 任务

进行图像识别

2. 网络

图A

3. 网络中的细节

3.1 名词解释

$l_{t-1}$ 为location。

gt为glimpse vector。

ht-1是internal state。

at是action，有两个作用：通过感知控制下一时刻lt来决定如何布置感知器；一个可能会影响环境状态的环境的作at。

3.2 glimpse vector

图一

图二

3.2.1 图一：glimpse sensor

是从image 的location $l_{t-1}$ 周围提取出了 $p(x_{t},l_{t-1})$ .

在l附近分辨率高，离l 很远的地方分辨率低，所以比原始图像的维度更低。

3.2.2 图二： glimpse network—— $f_{g}(\theta _{g})$

输入为image和location，进入glimpse sensor，得到 $p(x_{t},l_{t-1})$ 。然后进入一个linear layer（ $\theta _{g}^{0}$ ）。

$l_{t-1}$ 直接输入一个linear layer（ $\theta _{g}^{1}$ ）；将 $\theta _{g}^{1}$ 和 $\theta _{g}^{0}$ 一起输入进linear layer $\theta _{g}^{2}$ ，得到 $g_{t}$ .

4.网络训练：

如图A所示，首先将location和image输入进 $f_{g}(\theta _{g})$ ，得到 $g_{t}$ ， $g_{t}$ 输入进linear layer 和 rectifier nonlinearity得到

ht-1为hidden layer。

$g_{t}$ 和ht-1一起输入进 $f_{h}(\theta _{h})$ ，在输入到linear layer得到ht。

ht输入到 $f_{a}(\theta _{a})$ 得到at。

ht输入到 $f_{l}(\theta _{l})$ 得到 $l_{t}$ 。

5. loss function

其中，，policy是选择at。

6. result

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2014-nips-Recurrent Models of Visual Attention论文笔记

1. 任务进行图像识别2. 网络图A3. 网络中的细节3.1 名词解释为location。gt为glimpse vector。ht-1是internal state。at是action，有两个作用：通过感知控制下一时刻lt来决定如何布置感知器；一个可能会影响环境状态的环境的作at。3.2 glimpse vector 图一图...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。