2:VX2TEXT基于多模态输入的视频文本生成的端到端

本文链接：https://blog.csdn.net/qq_41887799/article/details/122510092

1.网络大致架构

原始名称为End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

这个框架可以帮助我们，从视频、音频等输入内容中提取信息，再以人类可以理解的文字，生成字幕或者回答问题等。

直接贴图：给定相应需要实现的任务，比如说QA，以及捕捉要素的任务。根据视频形成Video Backbone，后根据每个视频词汇表不同的Distribution进行分类。对于语音来说的话，同理形成Audio Backbone 处理方式和video类似。对于一段的Speech来说，只需要做Token Embedding即可，不需要前面的一系列的预处理。后面接一个encoder和decoder可以得到一系列的word Distribution。我们建议的框架的说明。VX2TEXT接收作为输入的任务说明符和视频以及伴随的模式，如音频和语音。通过特定于模式的分类器和支持端到端训练的可区分的标记化方案，每个模式都被转换成一组标记。最后，编码器-解码器架构在语言空间中进行多模态融合，生成针对给定任务的开放式文本输出。

2.训练

我们将解码历史替换为相应位置上的ground-truth token gi:

系统的训练采用标准的交叉熵：

n代表了有多少个合法的token，请注意，此设计支持生成可变长度的文本。虽然这里我们展示了单个训练样本的目标，但在实践中，我们对小批量样本进行优化。

大多数以前的多模态Transfers依赖于特定任务的头来处理不同的任务。具体来说，为生成任务设计的头部通常与那些用于区别设置的头部有本质上的不同。然而，我们的VX2TEXT无缝地处理了这两种类型的任务，而不需要改变它的体系结构。对于生成任务，例如字幕和视频对话，我们遵循之前的作品，使用Beam Search(波束宽度设置为5)或Greedy Decoding来生成连贯的句子。

3.实现细节

video backbone network：R(2+1)D-34，以Kinetics的400个动作类别作为视频词汇，在训练过程中，我们随机抽取了32帧的剪辑;在测试期间，我们统一抽样10个剪辑并构建一个预测池。我们从池中采样Kv = 12个预测类别来代表视频中的动作/事件。注意，采样序列是对不同剪辑的预测进行时间排序的;来自同一片段的预测将根据信心评分进行排序。

audio backbone：CNN14，它接受AudioSet的训练，以识别527个声音事件。从相应的视频片段中以16000 Hz的频率采样音频片段，然后对其进行处理，提取出Log-mel谱图，并将其输入CNN。我们使用Ka = 6的预测类别来表示音频片段中的声学事件。

text transformer：包括文本标记嵌入层、编码器和解码器。我们使用HuggingFace中提供的预先训练的权值来初始化文本转换器。我们注意到，除了这些初始化之外，我们没有使用任何形式的预训练，并且模型的优化是使用给定的训练集对每个任务进行的。

AVSD验证集下的不同组合。

分别使用三个基准数据集：TVQA、AVSD和TVC。

可区分标记化通过优化整个端到端模型，进一步提高了这两项任务的性能，在很大程度上优于其他方案。我们使用每个GPU 6个示例的批量大小，并将训练分发到32个NVidia V100 GPU。我们使用学习率为0.0001的Adam来优化我们的模型。我们为40个epoch训练我们的模型，在第20和30个epoch的学习速率除以10。在我们的默认设置下，AVSD、TVQA和TVC的train时间分别为12、15和20小时。

4.数据集

Audio-Visual Scene-Aware Dialog：AVSD是一个基准测试，由描述Charades数据集中的视频的人类对话组成。每段视频的对话形式为10对问答。这些问题是由一个没有看过视频的人来提出的。这些问题的目的是收集关于视频内容的尽可能多的信息。这是通过与一个人的对话，谁看过视频，并提供详细的答案的问题。在这个基准测试中，算法会根据它们回答文本形式问题的能力进行评估

Video Question Answering：TVQA是一个数据集由6部电视剧的视频剪辑组成。给定一个视频剪辑和相应的演讲，这个任务的目标是回答一个关于该视频剪辑的多项选择题。每个视频剪辑有7个问题，每个问题有5个候选答案。总的来说，该数据集包含了来自21,800个片段的152,500对QA。语音数据以手工注释的文本形式出现。我们使用训练分割来训练我们的模型，并在验证集中报告结果。我们采用top-1准确度作为标准评价指标。

Video Captioning：TVC是最近推出的视频字幕基准。TVC数据集包含了与TVQA相同的一组视频，但是这些视频是以不同的方式被分割成片段的。将由手工文本组成的演讲作为输入输入到我们的模型。我们采用以下评价指标:BLEU-{1,2,3,4}、CIDEr、METEOR和ROUGE-L。在数据集的验证集上评估性能。

我们首先研究个别模态对基于视频的文本生成性能的影响。我们用不同的输入组合来训练和测试我们的模型。基于这些结果，我们观察到每种模式都为两个任务提供了性能增益。这对于AVSD基准测试来说尤其值得注意，它是专门为理解多模态而设计的。此外，请注意，视频模式的添加在所有指标下都产生了非常显著的增益。

研究了不同模态融合机制对TVQA验证集系统质量保证性能的影响。(最好是彩色的。)可微标记化方案在很大程度上优于其他方案。

在“生成(循环一致性)”中，我们的模型执行以下步骤:

1)给出基本真理问题Q，生成答案A;

2)根据A '生成问题Q ';

3)输出答案A“基于Q”。

最终目标是问题一致性的线性组合

与AVSD测试集的最先进水平相比，我们的模型在这两种情况下都取得了最好的结果。

在TVQA的验证集和测试集上，与目前的视频问答任务进行了比较。在测试集中，VX2TEXT比利用760万额外多模态样本进行预训练的HERO版本取得了更好的性能。数字代表Top-1准确率(%)。

5.与State-of-the-Art比较

我们将在三个独立的基准上将我们的单一模型与最先进的模型进行比较。

AVSD：最先进的MTN系统使用复杂的跨模态注意模块来融合来自不同模态的信息。MTN- TMT利用复杂的辅助损失对齐MTN的嵌入空间。然而，即使没有文本标题，这是一个非常强的信息源，我们的VX2TEXT已经达到了比MTN更好的性能。当向输入添加文本标题时，VX2TEXT的性能进一步提高，并显著优于MTN-TMT。这进一步证明了我们提出的简单的模态集成方案的有效性。

TVQA：由于TVQA上的许多方法都使用对象/帧级特性，为了进行公平的比较，我们将检测到的对象类别包含在VX2TEXT中作为此评估的额外输入模式。由于训练对象检测器的复杂性，这里我们使用了Frozen Tokenization，而将可微分Tokenization的应用留给以后的工作。

在测试集中，我们的VX2TEXT比以前的先进技术提高了1.4%，以HERO系统为代表，该系统采用了对760万额外样本进行的昂贵的多模态托词训练。这次预训练大约需要3周时间。当两个模型在没有多模态借口的情况下进行训练时，我们的VX2TEXT优于HERO 4.7%。