摘要
密集视频字幕是一项从未裁剪的视频中本地化有趣事件并为每个本地化事件生成文本描述(字幕)的任务。大多数f之前密集视频字幕的作品都是基于视觉信息,完全忽略了音轨。但是,特别是音频和语音;是人类观察者理解环境的重要线索。在本文中,我们提出了一种新的密集视频字幕方法,它可以利用任意数量的模式来描述事件。特别地,我们展示了音频ana语音模式可以改善密集视频字幕模型。我们应用自动语音识别(ASR)系统来获得一个时间对齐的语音文本描述(类似于字幕),并将其作为与视频帧和相应音轨一起的单独输入。我们将字幕任务制定为一个机器翻译问题,并利用最近提出的Transformer架构将多模态输入数据转换为文本描述。我们演示了我们的modei在ActivityNet标题数据集上的性能。消融研究表明音频和语音组件有相当大的贡献,表明这些模式包含了视频帧的大量补充信息。此外,我们还利用从原始YouTube视频中获得的类别标签,对ActivityNet标题结果进行了深入分析。代码公开提供:
介绍
大量的免费视频材料提出了对自动方法的需求,以总结和简洁地表示基本内容。一种方法是制作一个包含视频摘要任务[25]中提出的最重要视频片段的简短视频略读。或者,可以使用自然语言句子来描述视频内容。这种方法可以导致非常紧凑和直观的表示,通常称为视频字幕在文献[58]中。然而,为整个视频制作一个单一的描述可能是不现实的长无约束的镜头。相反,密集的视频字幕[24]的目标是,首先,在时间上本地化事件,然后,为每个事件生成自然语言描述。图1说明了示例视频序列的密集视频字幕。
最近在密集视频字幕方面的研究