MAU: A Motion-Aware Unit for Video Prediction andBeyond学习记录

时空序列小白

已于 2023-03-06 16:31:04 修改

阅读量313

点赞数 1

文章标签：学习自然语言处理 lstm pytorch rnn

于 2023-03-06 16:28:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40474914/article/details/129358365

版权

3.1

为了确保加宽的时间感受野能够被充分利用，两个问题待解决：
1，当前感受野中的时间状态应根据其重要性进行聚合；

2，应该合理地融合来自聚集的时间状态的运动信息和来自空间状态的外观信息。

3.2 MAU

对于t时间步第k层的MAU会有两个输入：1，k层前τ(tao)时刻的时间状态集T；2，k-1层前τ+1时刻的空间状态集S

为解决3.1中第一个问题，量化不同时间状态之间的相关性，可用相应的空间状态的相关性

k层t-j时刻的时间状态的注意力分数可用（3）表示

公式（3）的第二行是t时刻k-1层的空间状态的卷积S’与前τ(tao)时刻分别相乘再进行SUM（SUM操作作者并未做过多解释，我理解为矩阵所有元素相加得到一个数）

公式（4）是利用注意力分数表示时间状态集，即Tatt等于第k层时间状态的前τ(tao)个时刻分别与其对应α相乘再累加，这里我的理解是，一共τ(tao)个T，每个T前面都有一个系数，系数的大小决定T在每个时刻的重要性，而T的系数都是小于1的，τ(tao)个T累加起来得到Tatt。

而系数α大小取决于空间状态的相关性。举例，公式（4）在j=1时的α大小是取决于第k-1层的S在t-1时刻与第k-1层的S在t时刻卷积的Hadamard product，乘积越大则α越大，也就越相关，则在Tatt中T(k,t-1)占比也就越大。

Tatt被称为长期运动信息，再加上短期运动信息通过门控机制融合为Tami即增强运动信息。

为解决3.1中的第二个问题，作者设计融合模块以将增强运动信息Tami中的运动信息与当前输入S（k−1，t）中的外观信息聚合。

更新后的T和S如公式（7）所示，第二行末项为了稳定训练过程。

3.2 信息召回、

不做过多赘述。

时空序列小白

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MAU: A Motion-Aware Unit for Video Prediction andBeyond学习记录

自娱自乐，如有错误请务必交流指正
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。