【时空序列预测第六篇】EIDETIC 3D LSTM(E3D-LSTM): A MODEL FOR VIDEO PREDICTION AND BEYOND

前言

重新给自己个要求,一周两篇细读paper,写好文章慢慢发!给自己说一句:加油!

一、Address

这是ICLR2019年的一篇paper,来自于清华的王同学与李飞飞实验室的合作paper。

EIDETIC 3D LSTM:
A MODEL FOR VIDEO PREDICTION AND BEYOND

http://faculty.ucmerced.edu/mhyang/papers/iclr2019_eidetic3d.pdf

二、Introduction

2.1 3DCNN和RNN模型

3DCNN和RNN模型都用于时空序列预测上,之后呢,大家肯定会想两个模型简单得做一下前向的连接会不会更有效果呢?
实际上我们把3DCNN学到得主要是图片局部得一些表征(主要是短期的),而RNN主要学习到得是一种时间得信息表征(主要是强调长期的)。

但这样简单得结合最终的结果不如直接的RNN模型。

2.2 短期依赖和长期依赖

这个其实众说纷纭把,这篇paper是这么描述的

短期:

长期:

简单点来说,我的理解:

短期依赖就是短期的时间得一部分信息比如说运动啊等等等,还有图片本身的local信息,而长期就比较玄乎一些了,就是一些高阶有规律的一些时间性偏多的信息,比如长期的周期性,和一些图片的高级时间表达。

2.3 不完美模型的预测误差问题

文中一个非常nice的总结:

三、EIDETIC 3D LSTM

3.1 在循环神经网络中的3D-CNN结构

把3D-CNN与RNN结合处理序列问题,可以有以下两种结构

注:黑色箭头就是普通的数据格式和维度,而蓝色的是代表通过3D-CNN的方式来传递的。

故第一个图的输入部分为图片序列,经过3D-CNN之后得到一个feature map,相当于得到一个高级序列特征文件输入到RNN单元中

第二个图先是每一帧图片输入到普通卷积的encoder中,之后通过RNN结构输出信息,并将上一时刻的输出整合在一起得到的序列特征数据形式进行3D-CNN的Decoder输出预测

但实验表明这样的整合还不如直接RNN结构的效果好


提出了一个更深的组合,将3D-Conv集成在LSTM内,以便将卷积特征纳入随时间变化的递归状态转换中。


可以看出因为内部的转变,所有的输入输出形式都变成了 蓝色标记,也就是都经过3D-Conv过程

3.2 EIDETIC MEMORY TRANSITION

红线代表着短期的信息流,蓝线代表着注意的信息流。立方体表示高维的隐藏状态和内存状态。圆柱表示高维门

此处创新点主要是提出了新的memory state转换机制RECALL:

补充:

Hadamard product例子(就是矩阵中对应位置的元素相乘):

matrix product(就是矩阵相乘):

咱们再重新仔细看下这个结构。

红色的部分: 其实就是普通LSTM的input gate的部分,算是很标准的LSTM的一个输入,主要能够去编码一些图片序列的局部表征以及运动变化信息。

紫色的部分: 这个部分是重头戏,就是提出的那个类似于attention的机制。
文中说的很详细了,这里直接说下我个人的拙见罢了。

这里的Rt其实就是忘记门的位置,只是改造了。这里门控与之前的一系列时刻的memory state相乘之后,做了个softmax, 那就得到了一个向量,这个向量中全都是0-1之间的概率。又与之前的一系列时刻的memory state相乘,这里到底是怎么表达合适呢?我觉得文中一句话实在太赞。

控制了多少?哪些?这不就是softmax最后得到一堆0-1之间的数的作用嘛,0是不选择了,1我全选了,0-1之间就是我选择的what。

之后对过去的总体的信息进行选择之后和短期依赖Ct-1结合。

浅蓝色的部分: 通过LayerNorm把信息整合。

然而这张机制只用在了输入端,更确切的说应该是在唤醒长期记忆的部位。

作者也尝试去用这种方法对M进行recall但是效果不好。

附上最后一点公式:

四、EXPERIMENTS

在Moving Mnist上的表现


表现出最好结果

更多实验细节请自行读paper,最好是边复现边读,意义更大,效果更佳,这边不带着一起读了,因为前几篇都详细讲述过,差别不大。

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
E3D-LSTM具有以下优点: - E3D-LSTM模型通过捕捉长期的视频帧交互来处理跨多个时间戳的有用历史表示。 -3D-LSTM模型在模拟远距离周期性运动方面表现出良好的建模能力。 - E3D-LSTM模型能够更好地处理跨多个时间戳的有用的历史表示,这在权值的仔细检查中得到了显示。 - E3D-LSTM模型在两个指标上都表现出色,即在受到无关帧干扰的情况下,不会逐渐忘记重要的信息,并且能够捕捉到长期的视频帧交互。 - E3D-LSTM模型在LSTM改进的研究方面有着较深入的探索,对于如何使用LSTM模型具有指导意义。 - 对于对LSTM模型的了解,建议从MLP到RNN再到LSTM的学习路线,以及LSTM自身的发展路线,可以有助于更好地理解E3D-LSTM模型。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND](https://blog.csdn.net/u014386899/article/details/103557999)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [知乎--LSTM(挺全的)](https://blog.csdn.net/vbskj/article/details/71713204)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值