Multi-modal Dense Video Captioning--论文翻译

最新推荐文章于 2024-06-25 09:43:26 发布

alicecv

最新推荐文章于 2024-06-25 09:43:26 发布

阅读量919

点赞数 1

分类专栏： video caption 文章标签：深度学习

本文链接：https://blog.csdn.net/binger520886/article/details/107924679

版权

本文提出了一种新的密集视频字幕方法，利用多模态信息（视觉、音频和语音）来改善事件描述。通过自动语音识别系统获取语音文本描述，并结合Transformer架构进行机器翻译，实现多模态输入到文本描述的转换。实验显示，音频和语音模式对模型性能有显著提升，并在ActivityNet字幕数据集上取得了最先进的结果。

摘要由CSDN通过智能技术生成

摘要

密集视频字幕是一项从未裁剪的视频中本地化有趣事件并为每个本地化事件生成文本描述(字幕)的任务。大多数f之前密集视频字幕的作品都是基于视觉信息，完全忽略了音轨。但是，特别是音频和语音;是人类观察者理解环境的重要线索。在本文中，我们提出了一种新的密集视频字幕方法，它可以利用任意数量的模式来描述事件。特别地，我们展示了音频ana语音模式可以改善密集视频字幕模型。我们应用自动语音识别(ASR)系统来获得一个时间对齐的语音文本描述(类似于字幕)，并将其作为与视频帧和相应音轨一起的单独输入。我们将字幕任务制定为一个机器翻译问题，并利用最近提出的Transformer架构将多模态输入数据转换为文本描述。我们演示了我们的modei在ActivityNet标题数据集上的性能。消融研究表明音频和语音组件有相当大的贡献，表明这些模式包含了视频帧的大量补充信息。此外，我们还利用从原始YouTube视频中获得的类别标签，对ActivityNet标题结果进行了深入分析。代码公开提供:

介绍

大量的免费视频材料提出了对自动方法的需求，以总结和简洁地表示基本内容。一种方法是制作一个包含视频摘要任务[25]中提出的最重要视频片段的简短视频略读。或者，可以使用自然语言句子来描述视频内容。这种方法可以导致非常紧凑和直观的表示，通常称为视频字幕在文献[58]中。然而，为整个视频制作一个单一的描述可能是不现实的长无约束的镜头。相反，密集的视频字幕[24]的目标是，首先，在时间上本地化事件，然后，为每个事件生成自然语言描述。图1说明了示例视频序列的密集视频字幕。
在这里插入图片描述
最近在密集视频字幕方面的研究