CVPR 2021 VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

最新推荐文章于 2024-09-18 00:03:05 发布

smile909

最新推荐文章于 2024-09-18 00:03:05 发布

阅读量840

点赞数 1

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/116462303

版权

VX2TEXT是一种端到端学习的多模态框架，从视频和多模态输入中生成文本。它通过将每个输入信号转换为公共语义语言空间，利用预训练分类器和可微tokenization实现多模态融合，无需额外的多模态预训练。实验表明，VX2TEXT在视频captioning、问答和视听对话任务上优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动机

人工智能的基本目标之一是开发能够可靠地理解现实世界并与人类进行网络语言交流的对话式多模态系统。
近年来，通过采用大规模基准，评估解释视听信息和将这一理解转化为自然语言的能力，这一领域的进展取得了显著进展。
主要任务包括用于图像或视频captioning、问题回答的数据集(QA)以及视听对话。为了在这样的基准上表现出色，该模型必须完成以下3个目标：（1）从每个模态中提取显著信息；（2）有效地组合不同的线索来处理给定的查询；（3）生成结果并以人类可理解的文本呈现。
第一个通过系统消融经验地证明了与应用于同一编码器模型的判别学习相比，通过解码生成学习实现的性能改进。
之前的多模态Transformer模型依赖于大规模数据集上昂贵的pretext训练来学习多模态表征。而作者的VX2TEXT可以在统一的语言空间中进行多模态融合，不需要多模态pretext训练。
与之前的工作不同的是，作者在连续模态上采用了可微（可导）的tokenization，使得整个模型相对于最终目标是端到端可训练的。
与之前的方法相比，实验结果表明，本设计具有较好的性能。

方法

简介

为了完成上述3个目标，在本文中，作者介绍了VX2TEXT，一个简单的基于视频的方法，它将这三个步骤嵌入到一个统一的、端到端的可训练框架中，可以从视频和伴随的模态（如音频、语音或对话历史）中生成开放式文本。目标（1）和（2）是通过利用特定于模态的分类器将每个输入信号的语义转换到一个公共语义语言空间来实现的，这使得强大的语言模型能够应用于直接解释多模态内容。具体地说，作者的方法采用在现有数据集上预训练好的每个分类器预测的top类的文本标签，并使用预训练好的语言模型将它们转换为单词嵌入。这种解决方案的好处是，它开辟了通过强大的语言编码器（如T5）实现多模态融合的可能性，而不需要设计专门的跨模态网络模块或pretext任务来学习组合不同的输入信号。这样的设计不仅简单得多，而且与现有的方法相比，它还导致更好的性能。

为了实现目标(3)，作者采用了一种生成式文本解码器，它将编码器计算的多模态特征转换成文本，从而实现以人类可理解的语言生成结果的目标。虽然现有的基于仅编码器的架构的多模态工作被限制在从固定的文本候选集合中进行自动选择的设置中操作，但是作者的生成方法可以用于例如对话应用中所需要的开放式句子生成。此外，文本解码器的使用允许作者以相同的架构处理不同的“视频+x到文本”问题（例如，回答和生成问题、对话以及captioning），而不必为每个任务设计专门的网络头。

作者将这些概念上不同的步骤集成到一个单一架构中，并对其进行端到端的训练。要做到这一点，作者在连续的模态（如音频或视频）上采用了一种可微的tokenization，使得整个模型–包括模态特定的分类器–相对于最终目标是可训练的。在视频captioning，问答和视听场景感知对话这3个任务进行了实验，实验证明，作者的端到端训练的统一框架产生了显着的性能增益比单独学习的模块。作者的VX2TEXT基于一个以生成方式训练的单一架构，没有任何多模态pretext预训练，在三个不同的文本生成任务–captioning、QA和对话上优于现有的水平。

架构

在这里插入图片描述

VX2TEXT接收一个任务指示符作为输入，以及带有伴随的模态的视频，如音频和语音。每个模态通过模态特定分类器和一种允许端到端训练的可微tokenization方案被转换成一组tokens。最后，一个编码器-解码器体系结构在语言空间中执行多模态融合，并生成针对给定任务的开放式文本作为输出。

模型

形式上，设x={x₁, x₂,…,x_M是一个多模态样本，其中x_m表示第m个模态。作者使用特定任务token t∈{Answer, Caption, dialog, …}。然后作者的目标是训练一个模型F(t, x₁, x₂, … , x_M; W)，该模型生成一个文本token序列y=[y₁, y₂, … , y_N]，它表示任务t的输出。W表示其可训练参数。根据任务的不同ÿ

最低0.47元/天解锁文章