video caption
alicecv
这个作者很懒,什么都没留下…
展开
-
Multi-modal Dense Video Captioning--论文翻译
摘要密集视频字幕是一项从未裁剪的视频中本地化有趣事件并为每个本地化事件生成文本描述(字幕)的任务。大多数f之前密集视频字幕的作品都是基于视觉信息,完全忽略了音轨。但是,特别是音频和语音;是人类观察者理解环境的重要线索。在本文中,我们提出了一种新的密集视频字幕方法,它可以利用任意数量的模式来描述事件。特别地,我们展示了音频ana语音模式可以改善密集视频字幕模型。我们应用自动语音识别(ASR)系统来获得一个时间对齐的语音文本描述(类似于字幕),并将其作为与视频帧和相应音轨一起的单独输入。我们将字幕任务制定为一原创 2020-08-11 00:17:27 · 905 阅读 · 1 评论 -
video caption
video caption论文参考博客https://blog.csdn.net/sinat_35177634/article/details/88568491?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.compare&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachine原创 2020-08-10 20:49:49 · 356 阅读 · 0 评论