视频描述(video caption)历年突破性论文总结

视频描述(video caption)历年突破性论文总结

视频描述

顾名思义视频描述是计算机对视频生成一段描述,如图所示,这张图片选取了一段视频的两帧,针对它的描述是"A man is doing stunts on his bike",这对在线的视频的检索等有很大帮助。近几年图像描述的发展也让人们思考对视频生成描述,但不同于图像这种静态的空间信息,视频除了空间信息还包括时序信息,同时还有声音信息,这就表示一段视频比图像包含的信息更多,同时要求提取的特征也就更多,这对生成一段准确的描述是重大的挑战。
同时本人也写了关于图像描述的总结链接如下:
图像描述历年突破性论文总结:https://blog.csdn.net/sinat_35177634/article/details/88102512

Sequence to Sequence – Video to Text(2015)

这篇文章是早期经典文章,思路相对简单,如图所示,对视频的特征提取也仅仅对每帧的图像使用CNN网络进行2D特征的提取,同时加入了另外的特征——光流图像提取的特征,因为可以更好的表示视频中的动作,整个视频encoder和decoder过程在一个LSTM模型上完成,考虑到了视频的时序特征,因此使用LSTM网络来顺序进行图像特征的输入,用隐含层来表示整个视频,再接着输入单词来逐个预测单词,之后是详细介绍。

如图所示,LSTM使用两层的栈式结构,但本人觉得使用正常的LSTM模型也没有什么区别,可能实验证明效果更好吧,毕竟深度网络这东西原理也解释不清楚。

作者对原始图像和光流图像单独进行处理,在预测每个单词时对两个模型生成的概率进行加权平均:

其中Prgb是原始图像生成的单词为y’的概率,Pflow是光流图像生成的单词为y’的概率,加权平均为总概率,这样一步一步预测出完整的描述。
由于是早期的文章,忽略了很多东西,比如在image caption中有显著贡献的attention机制,更好的时序特征提取技术,其他的特征比如语音、背景音等特征。可以说这篇文章极大的依赖LSTM网络本身的性质,时序特征也就是image feature之间的关联也靠模型自动学习,包括最终的视频特征和之后单词之间的关联也都靠LSTM模型自动学习,作者只加了一个光流图像特征进行加权平均。但由于是早期的文章,在三个数据库:MSVD、MPII-MD和M-VAD上当时效果较好。具体实例如下:

论文链接:https://arxiv.org/pdf/1505.00487.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值