1.数据
图片数据n*1*28*28
,一共有n张图片,图片通道数为1,高宽都是28
2.网络结构可以分为以下几部分:
(1)glimpse_network()
集中关注图片的局部信息:内容和位置
(2)core_network()
实际上是RNN网络,处理glimpse_network()输出的重要子图。
(3)location_network()
处理core_network()输出的信息,加噪音,为提取局部子图的log_pi概率做准备。
(4)baseline_network()
计算损失函数时候用到b_t
(5) action_network( )
遇到end结束序列时候用,输出图片的分类结果