视频描述（video caption）历年突破性论文总结

最新推荐文章于 2024-08-29 10:04:43 发布

Charles、洛

最新推荐文章于 2024-08-29 10:04:43 发布

阅读量1.7w

点赞数 21

分类专栏：论文研读计算机视觉文章标签：视频描述人工智能计算机视觉深度学习自然语言处理

本文链接：https://blog.csdn.net/sinat_35177634/article/details/88568491

版权

视频描述（video caption）历年突破性论文总结

视频描述

顾名思义视频描述是计算机对视频生成一段描述，如图所示，这张图片选取了一段视频的两帧，针对它的描述是"A man is doing stunts on his bike"，这对在线的视频的检索等有很大帮助。近几年图像描述的发展也让人们思考对视频生成描述，但不同于图像这种静态的空间信息，视频除了空间信息还包括时序信息，同时还有声音信息，这就表示一段视频比图像包含的信息更多，同时要求提取的特征也就更多，这对生成一段准确的描述是重大的挑战。
同时本人也写了关于图像描述的总结链接如下：
图像描述历年突破性论文总结：https://blog.csdn.net/sinat_35177634/article/details/88102512

Sequence to Sequence – Video to Text（2015）

这篇文章是早期经典文章，思路相对简单，如图所示，对视频的特征提取也仅仅对每帧的图像使用CNN网络进行2D特征的提取，同时加入了另外的特征——光流图像提取的特征，因为可以更好的表示视频中的动作，整个视频encoder和decoder过程在一个LSTM模型上完成，考虑到了视频的时序特征，因此使用LSTM网络来顺序进行图像特征的输入，用隐含层来表示整个视频，再接着输入单词来逐个预测单词，之后是详细介绍。

如图所示，LSTM使用两层的栈式结构，但本人觉得使用正常的LSTM模型也没有什么区别，可能实验证明效果更好吧，毕竟深度网络这东西原理也解释不清楚。

作者对原始图像和光流图像单独进行处理，在预测每个单词时对两个模型生成的概率进行加权平均：

其中Prgb是原始图像生成的单词为y’的概率，Pflow是光流图像生成的单词为y’的概率，加权平均为总概率，这样一步一步预测出完整的描述。
由于是早期的文章，忽略了很多东西，比如在image caption中有显著贡献的attention机制，更好的时序特征提取技术，其他的特征比如语音、背景音等特征。可以说这篇文章极大的依赖LSTM网络本身的性质，时序特征也就是image feature之间的关联也靠模型自动学习，包括最终的视频特征和之后单词之间的关联也都靠LSTM模型自动学习，作者只加了一个光流图像特征进行加权平均。但由于是早期的文章，在三个数据库：MSVD、MPII-MD和M-VAD上当时效果较好。具体实例如下：

论文链接：https://arxiv.org/pdf/1505.00487.pdf