VideoLSTM 论文阅读

最新推荐文章于 2025-05-19 20:14:50 发布

scarlet witcher

最新推荐文章于 2025-05-19 20:14:50 发布

阅读量756

点赞数

文章标签：机器翻译深度学习人工智能

本文链接：https://blog.csdn.net/taoyc888888/article/details/123018237

版权

1.论文任务

VideoLSTM用于动作分类和定位，进行视频中动作的端到端学习。这篇文章的主要贡献是在 Attention LSTM的基础上引入了 conv-lstm,并且Attention是基于motion得出的，文章将这种 conv-lstm +motion-based attention的结构称为 VideoLSTM。

2.论文创新

以attention LSTM为基本架构

引入motion特征，提出基于motion的注意力。因为在建模视频时，仅使用深层的卷积是不够的，还必须考虑注意力，motion不仅显示表示动作内容，还可以更好地将注意力引导到相关的时空位置，因此引入了基于motion的注意力。
在ALSTM架构中使用卷积。本文认为，得到图像的空间相关性，相比于内积，卷积能够更好地捕获。
通过标签和时间注意力来进行动作定位，与其他 LSTM 结构相比，它在动作定位方面具有优势。

3.VideoLSTM模型

以上已经介绍了，模型包括了appearance, motion，attention，具体是用Convolutional ALSTM，Motion-based Attention来改进attention LSTM。此三种结构缺一不可，单独使用不能带来改善。
conv-lstm将传统的lstm的隐藏单元替换为了feature map，并且将hidden到hidden的映射替换成卷积。传统的 fc-lstm网络中，输入到lstm的是具有抽象语义信息的全连接层特征，所以无论是输入到hidden的映射还是hidden到hidden的映射，都会忽略输入图像中的空间信息。而conv-lstm网络是将feature map 输入到lstm中，feature map 中保留着输入的空间结构信息，所以当前的输入会与历史信息中相同的空间区域进行作用，能够描述不同空间区域的局部变化。

在这里插入图片描述

3.1 Convolutional ALSTM

标准的LSTM和ALSTM网络利用全连接，将输入视为序列，这是处理视频（时空数据）的一个主要缺点，因为没有对空间信息进行编码。本文认为，在图像中，首选局部连接，而不是完全连接，就是将LSTM单元中的全连接的乘法运算替换为convolutional运算。
在这里插入图片描述

在这里插入图片描述

上面的公式根据LSTM得来，但是此处需要注意，*代表卷积操作， $\bigodot$ 代表逐点相乘，W是二维卷积核，其他都是三维tensor。
在这里插入图片描述
图像特征 $X_t$ 和每帧t处的attention map相结合，将 $\widetilde X_t$ 作为注意加权图像表示， $X_t$ 的shape为 $N * N * D$ ,attention map的shape为 $N * N$

$Z_t$ 是一个二维的score map，他的目的是为了产生空间attention map，即 $A_t$ .
在这里插入图片描述

在这里插入图片描述
左边是一个ALSTM模型，它根据注意力对输入向量进行加权，并输出一个D维向量。右边是卷积ALSTM网络，它以二维张量输入，执行卷积运算，并返回一个N×N×D维张量，保留视频的空间结构。

3.2 Motion-based attention

在卷积ALSTM网络中，注意力是基于先前ALSTM单元的隐藏状态产生的。但是，视频与显著运动的帧位置高度相关，在ALSTM和卷积ALSTM网络中，使用运动信息来帮助推断注意力是合理的。
在这里插入图片描述
与Convolutional ALSTM相比，将 $\widetilde X_t$ 换成了 $M_t$ ,并且I，F，O，G都多了一个H_t-1^m，
$M_t$ 是在t时刻从光流中提取的特征图，最后由H_t^m来生成attention map。