时空序列预测：SimVP: Simpler yet Better Video Prediction解读

最新推荐文章于 2024-10-28 12:35:01 发布

时间序列预测_涛

最新推荐文章于 2024-10-28 12:35:01 发布

阅读量4k

点赞数 3

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_42106811/article/details/126254604

版权

文章摘要:从CNN、RNN到VIT，包含了辅助输入，精细的神经架构和复杂的训练策略。是否有一种简单的方法可以表现得同样好？本文提出了SimVP模型，并通过MSE LOSS以端到端的方式进行训练。

github代码地址：GitHub - ryok/SimVP-Simpler-yet-Better-Video-Prediction

文章地址：SimVP: Simpler Yet Better Video Prediction (thecvf.com)

论文模型结构：

模型的结构由三部分组成：

Encoder:编码器堆叠 $N_s{}$ 个卷积模块，通过堆叠来用来提取空间特征。其在代码中过堆叠了4层来进行空间特征提取，在代码中采用的是GroupNorm并未采用LayerNorm，其中将GroupNorm的num_group设置为了2，其并不是LayerNrom。（GN的极端情况就是LN和IN，分别对应G等于C和G等于1）

Translator：该模块采用 $N_t{}$ 初始化来学习时间演化。在代码中Translator是由Inception结构堆叠而成，Inception结构首先通过了一个1×1的卷积核，而后使用卷积核大小为(3,5,7,11)来分别进行卷积，最后将特征图进行拼接。SimVP模型在Translator通过Inception单元堆叠出了一个Encoder-Decoder结构，这个Encoder-Decoder结构的深度共8层，通过这种方式来进行时间特征的提取得到时间演化效果。