小白学习之视频描述研究生论文

最新推荐文章于 2021-08-13 17:36:46 发布

关切得大神

最新推荐文章于 2021-08-13 17:36:46 发布

阅读量601

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41115379/article/details/108920827

版权

深度学习专栏收录该内容

36 篇文章 1 订阅

订阅专栏

主要是学习了这篇研究生论文上的对于视频描述的理解。
http://www.doc88.com/p-9532573384498.html
总的来说就是利用机器学习或计算机视觉等方法来提取视频的特征，并对其加以分析，在通过自然语言处理等技术生成若干个视频描述句子。

在我看来也是，之前对于一些图像和声音等的研究，都可以算是基于视频描述的基础。并且对于视频的研究，从最初的2D到了3D模型，还有一些比较著名的数据库：
1.UCF101 (视频行为识别的数据库）
2.YUPENN和Maryland（场景识别的数据库）
而对于视频描述的研究发展，也是从最初的针对帧也就是图像的发展的逐步优化，到了开始针对图像区域的研究（这里就有一个 Microsoft COCO标准数据集）

到现在开始，对于视频描述的方法一般就变成了：
基于管道的方法和基于端到端的方法
1.基于管道的方法：需要两个独立的组件来完成视频序列到文本序列的转换，首先检测出视频中展现的人物，动作，场景等等，再套用语言模板或者经过预训练的语言模板去生成一个符号语法规则的描述性语句。再完善这些缺点的前提之下，提出了LRCN（长时递归卷积网络）模型，设计三个不同的网络来完成视频行为识别，静态图像描述和视频描述的任务。
2.端到端的方法：
利用CNNC模型的特征提取方法替代了原本视频中采样帧RGB图像的信息提取，也就是对每个采样帧提取了CNN高层抽象特征之后，得到所有特征向量平均池化加以融合，再将融合的结果传入到基于LSTM单元的递归神经网络中，最后转化为文本序列，自动生成该视频的描述性语句。（这里有一个MSVD视频数据集，还有一个TACoS-MultiLevel视频数据集（有一些较长视频））

所以可以说是，

现在视频描述的主流方法大部分是基于编码器-解码器的模型框架，通过多种特征融合对视频内容进行视觉上的编码表达，然后利用递归神经网络构成解码器用于生产描述文本，在视觉检测器和语言生成模型之间嵌入一个软注意力机制使得模型能够更有针对性的动态学习，从而生成语义更丰富更准确的描述语句。

这个论文也介绍了一些深度神经网络的理论知识

1.反向传播：
Backpropagation，一般是和梯度下降法等最优化方法结合使用的，他的主要思想就是，首先让训练数据在网络模型中做前向传播运算，并求出损失函数的值，再对网络所有权重计算损失函数的梯度，根据梯度值使用特定的优化算法对网络中的权重进行调整和更新。
2.卷积神经网络：
也就是CNN，由多个卷积层级联构成，他由卷积层，池化层和全连接层等组件构成。除了这些层以外，还有一个激活函数，用来对运算结果作非线性运算。
2.1GoogleNet
这个模型，将原来的7层扩展到了22层，除此之外，也进行了一些我基本上看不懂的完善方式
2.2ResNet
这个也是算是对模式的一个优化。

3.拓展网络
3.1LSTM网络，他有一个LSTM单元（这个单元由输入门，遗忘门，输出门和记忆单元组成）

4.训练技巧
1.Dropout
他表现在，在每一次训练深度神经网络的时候，会随机舍弃部分神经元并将其置零输出，其余的神经元被保留下来继续训练。
2.Batch Normalization
这是一种基于小批量数据的归一化方法，引入两个可学习的重构参数，再将原始网络需要学习的特征分布通过学习恢复出来。

视频描述的技术基础和核心问题

一般就是存在两个方法：
第一类是基于模板的语言模型：包括视觉单词检测，词性分析和语法解析三部分，利用视觉检测器对视频内容进行是被，并对识别出来的单词进行词性分析，作为句子的主语，谓语等，最后利用语法规则和语言模板生成一个描述语言。
第二类是基于神经机器翻译的语言模型：也就是将检测出来的视觉特征利用基于神经机器翻译的语言模型映射到单词序列上，从而生成描述语句，其中语言模型通常采用深度神经网络构建。（这种方法的优化版就是将编码-解码的框架引入到了视频描述当中）

所以最后话说回来，我对于这篇论文的理解也就是在于每一章的小结部分：首先是基于编码和解码的主流框架（框架找到了），再是对注意力机制的原理介绍了一些，最后举了一些视频描述生成文本质量评价的方法，比如BLEU,METEOR,CIDEr等等。
第二个小结就是，有基于CNN网络的特征提取器和基于LSTM网络的特征解码器，时序注意力机制以及用于生成描述语句的波束搜索算法，最后找到了MSVD数据集。

按照这个图来说的话，就是先对视频进行对应的特征提取，再将特征向量融合，再将其编码融合，使用注意力机器，最后再解码实现最后的结果。
在这里插入图片描述
再者就是对搁着训练集和训练方法的测试结果显示。按照原文的意思就是：

在基于时序注意力机制的视频描述方法基础上，对他进行了一系列改进并提出了一种结合丰富语义信息和时空注意力的视频描述方法，也就是先对视频的对象特征，场景特征，行为特征和光流特征加以融合，并用双向LSTM编码器对融合特征进行编码生成丰富的语义信息，再引入时空注意力机制使模型在当前时刻生成描述单词时的关键信息，最后使用算法筛选候选语句时加入长度归一化的处理技巧。

关切得大神

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
小白学习之视频描述研究生论文

主要是学习了这篇研究生论文上的对于视频描述的理解。http://www.doc88.com/p-9532573384498.html总的来说就是利用机器学习或计算机视觉等方法来提取视频的特征，并对其加以分析，在通过自然语言处理等技术生成若干个视频描述句子。在我看来也是，之前对于一些图像和声音等的研究，都可以算是基于视频描述的基础。并且对于视频的研究，从最初的2D到了3D模型，还有一些比较著名的数据库：1.UCF101 (视频行为识别的数据库）2.YUPENN和Maryland（场景识别的数据库）
复制链接

扫一扫

专栏目录