ACMMM 2021《LSG》性能SOTA！用GNN和GAN的方式来强化Video Captioning的学习！

最新推荐文章于 2023-10-29 10:00:02 发布

我爱计算机视觉

最新推荐文章于 2023-10-29 10:00:02 发布

阅读量730

点赞数 1

文章标签：大数据自然语言处理编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/119951481

版权

本文介绍了ACMMM 2021论文《D-LSG-Video-Captioning》，该论文提出了一种利用GNN和GAN强化视频字幕生成的方法。通过增强对象建议、视觉知识提取和判别语言验证，实现视频字幕性能的显著提升。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享一篇 ACMMM 2021论文『Discriminative Latent Semantic Graph for Video Captioning』，性能SOTA！用GNN和GAN的方式来强化Video Captioning的学习！

详细信息如下：

论文链接：https://arxiv.org/abs/2108.03662
项目链接：https://github.com/baiyang4/D-LSG-Video-Caption（尚未开源）

导言：

视频字幕（Video captioning）旨在自动生成句子，来描述给定视频的视觉内容。现有的生成模型，如编码器-解码器框架，不能明确地从复杂的时空数据中探索对象级的交互和帧级的信息，以生成语义丰富的caption。本文的方法将视频字幕任务分解成了三个子任务：

1）Enhanced Object Proposal（增强对象建议）：作者提出了一种新的 Conditional Graph（条件图），可以将时空信息融合到潜在的目标proposal中。

2）Visual Knowledge（视觉知识）：作者提出了 Latent Proposal Aggregation（潜在建议聚合）模块来动态提取具有较高语义层次的视觉词。

3）Sentence Validation（句子验证）：作者提出了一种 Discriminative Language Validator（判别语言验证器）来验证生成的标题，从而有效地保留关键的语义概念。

作者在两个公共数据集(MVSD和MSR-VTT)上进行的实验表明，在所有指标上，本文提出的方法都比以前的SOTA方法有显著的提升。

Motivation

随着各种在线视频平台的视频资源量的与日俱增，近年来，视频字幕的研究受到了越来越多的关注。完整的视频字幕会对其他多模态任务产生实质性的影响，例如：基于内容的视频检索和推荐。尽管计算机视觉和自然语言处理在视频分析和语言理解方面取得了显著的进展，但视频字幕仍然是一项非常具有挑战性的任务。该任务不仅需要在帧级别上探索复杂的对象交互和关系，还需要从视频序列中探索故事线。这样的任务可以看作是从识别到理解水平的一个飞跃。

视频字幕的主要挑战之一是，视频帧和caption中的文字之间没有明确的对应关系 。视频字幕模型需要在更高的语义水平上提取总结出来的视觉单词。上图展示了视频字幕的数据流。从人类理解的角度来看，可以将整个过程解释为几个子任务：

检测和识别视频中的主要对象，即“woman”和“stroller”；
推断给这些对象之间的交互和动作，即“showing”和“operates”；
将内容组织成一个具有语法结构的句子，即“A woman is showing how stroller operates”。

早期的视频字幕研究通常采用编码器-解码器框架，将视频字幕作为机器翻译任务。为了克服基于embedding的框架的缺点，图神经网络(GNNs)被用于建模对象之间的关系。然而，以往的GNN方法主要建立在对象特征上，而没有考虑整个视频序列中基于帧的时空上下文。

另一个挑战是，输出标题需要保持与内容相关的语法结构，而不是生成一个离散概念的列表 。为了检验一个句子的表达是否自然，先前也有一些工作采用了基于GAN的方法。然而，视频字幕需要更精细的监督水平来区分基于语义内容的real/fake句子，并确保语法的正确性。

基于上面的挑战，作者将视频字幕框架分为了三个子任务，分别为：Enhanced Object Proposal（增强对象建议）, Visual Knowledge（视觉知识）, Sentence Validation（句子验证） 。

首先，在增强对象建议任务中，从视频帧中提取时空上下文，并将这些信息合并到视觉对象中。
第二，因为，视频中的帧和对象建议的数量远远多于生成句子中的单词。因此，视觉知识任务的目的是将这种重复和冗余的建议转换为更紧凑的视觉单词（visual word）。相比于增强对象建议任务中提出的建议，这一步产生是视觉单词更有益于生成句子。
最后，句子验证任务旨在检查生成的标题的真实性和可读性。

基于上面的Motivation，作者提出了Discriminative Latent Semantic Graph (D-LSG)框架：

基于多种特征融合的图模型（Graph model）。这些特征在数据分布、维度和结构上通常是异构的。2D CNN表示帧内容，3D CNN提取时间帧变化，region-level object proposals考虑了每一帧里面的视觉对象信息。
潜在语义（Latent Semantic）是指可以从增强的对象建议中提取的高级语义知识。通过动态图将大量的增强对象建议转换为少量的高级视觉知识。
鉴别模块（Discriminative module）用于生成语言的验证。

方法

视频字幕问题本质上是一个序列到序列的过程。给定视频，我们的目标是建立一个端到端模型来生成标题。