【时空序列预测第六篇】EIDETIC 3D LSTM(E3D-LSTM): A MODEL FOR VIDEO PREDICTION AND BEYOND

最新推荐文章于 2024-08-18 10:33:02 发布

置顶 AI蜗牛车

最新推荐文章于 2024-08-18 10:33:02 发布

阅读量6.9k

点赞数 4

分类专栏：时空序列预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33431368/article/details/104741646

版权

时空序列预测专栏收录该内容

22 篇文章

订阅专栏

本文深入解析ICLR2019论文《EIDETIC3DLSTM》，介绍了一种结合3D-CNN与RNN的新型视频预测模型。该模型通过创新的memory transition机制，有效解决了短期与长期依赖问题，提升预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、Address
二、Introduction
三、EIDETIC 3D LSTM
四、EXPERIMENTS

前言

重新给自己个要求，一周两篇细读paper，写好文章慢慢发！给自己说一句：加油！

一、Address

这是ICLR2019年的一篇paper，来自于清华的王同学与李飞飞实验室的合作paper。

EIDETIC 3D LSTM:
A MODEL FOR VIDEO PREDICTION AND BEYOND

http://faculty.ucmerced.edu/mhyang/papers/iclr2019_eidetic3d.pdf

二、Introduction

2.1 3DCNN和RNN模型

3DCNN和RNN模型都用于时空序列预测上，之后呢，大家肯定会想两个模型简单得做一下前向的连接会不会更有效果呢？
实际上我们把3DCNN学到得主要是图片局部得一些表征（主要是短期的），而RNN主要学习到得是一种时间得信息表征（主要是强调长期的）。

但这样简单得结合最终的结果不如直接的RNN模型。

2.2 短期依赖和长期依赖

这个其实众说纷纭把，这篇paper是这么描述的

短期：

长期：

简单点来说，我的理解：

短期依赖就是短期的时间得一部分信息比如说运动啊等等等，还有图片本身的local信息，而长期就比较玄乎一些了，就是一些高阶有规律的一些时间性偏多的信息，比如长期的周期性，和一些图片的高级时间表达。

2.3 不完美模型的预测误差问题

文中一个非常nice的总结：

三、EIDETIC 3D LSTM

3.1 在循环神经网络中的3D-CNN结构

把3D-CNN与RNN结合处理序列问题，可以有以下两种结构

注：黑色箭头就是普通的数据格式和维度，而蓝色的是代表通过3D-CNN的方式来传递的。

故第一个图的输入部分为图片序列，经过3D-CNN之后得到一个feature map，相当于得到一个高级序列特征文件输入到RNN单元中

第二个图先是每一帧图片输入到普通卷积的encoder中，之后通过RNN结构输出信息，并将上一时刻的输出整合在一起得到的序列特征数据形式进行3D-CNN的Decoder输出预测

但实验表明这样的整合还不如直接RNN结构的效果好

提出了一个更深的组合，将3D-Conv集成在LSTM内，以便将卷积特征纳入随时间变化的递归状态转换中。

可以看出因为内部的转变，所有的输入输出形式都变成了蓝色标记，也就是都经过3D-Conv过程

3.2 EIDETIC MEMORY TRANSITION

红线代表着短期的信息流，蓝线代表着注意的信息流。立方体表示高维的隐藏状态和内存状态。圆柱表示高维门

此处创新点主要是提出了新的memory state转换机制RECALL:

补充：

Hadamard product例子(就是矩阵中对应位置的元素相乘)：

matrix product(就是矩阵相乘)：

咱们再重新仔细看下这个结构。

红色的部分： 其实就是普通LSTM的input gate的部分，算是很标准的LSTM的一个输入，主要能够去编码一些图片序列的局部表征以及运动变化信息。

紫色的部分： 这个部分是重头戏，就是提出的那个类似于attention的机制。
文中说的很详细了，这里直接说下我个人的拙见罢了。

这里的Rt其实就是忘记门的位置，只是改造了。这里门控与之前的一系列时刻的memory state相乘之后，做了个softmax，那就得到了一个向量，这个向量中全都是0-1之间的概率。又与之前的一系列时刻的memory state相乘，这里到底是怎么表达合适呢？我觉得文中一句话实在太赞。

控制了多少？哪些？这不就是softmax最后得到一堆0-1之间的数的作用嘛，0是不选择了，1我全选了，0-1之间就是我选择的what。

之后对过去的总体的信息进行选择之后和短期依赖Ct-1结合。

浅蓝色的部分： 通过LayerNorm把信息整合。

然而这张机制只用在了输入端，更确切的说应该是在唤醒长期记忆的部位。

作者也尝试去用这种方法对M进行recall但是效果不好。

附上最后一点公式：

四、EXPERIMENTS

在Moving Mnist上的表现

表现出最好结果

更多实验细节请自行读paper，最好是边复现边读，意义更大，效果更佳，这边不带着一起读了，因为前几篇都详细讲述过，差别不大。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。