EMNLP 2020
文章平均质量分 90
smile909
这个作者很懒,什么都没留下…
展开
-
EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube
动机 从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段。 通过预测语音内容和自动语音识别(ASR) token之间的grounded关系来学习特征。然而,先前的训练前工作仅限于教学录像;作者希望这个领域是相对“容易”的:在教学视频中,演讲者通常会引用文字描述的目标/动作。即期望视频帧和ASR token中的语义信息在教学视频中可以很容易地关联起来。 相似模型是否可以在更多样化的视频语料库上进行训练?如果是,哪些类型的视频“grounded”,哪些类型不“grounde原创 2021-05-16 23:11:42 · 572 阅读 · 0 评论 -
EMNLP 2020 BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues
动机 基于视频的对话是非常具有挑战性的,这是因为(i)包含空间和时间变化的视频的复杂性,以及(ii)用户在视频或者多个对话轮中查询不同片段和/或不同目标的话语的复杂性。然而,现有的基于视频的对话方法往往关注于表面的时间级视觉线索,而不是从视频中获取更细粒度的空间信号。作者的方法旨在通过双向推理框架从视频中检索细粒度信息来挑战基于视频的对话来解决这一问题。 与视频对话相关的任务是视频问答和视频captioning。之前在这些研究领域的努力,如 Tgif-qa、GRU-EVEhft+sem-(CI)明确地考原创 2021-05-16 00:00:09 · 341 阅读 · 0 评论 -
EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles
动机 多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章,这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。 自动生成多模态摘要,即选择合适的视频封面帧,生成合适的文章文本摘要,可以帮助编辑节省时间,读者更有效地做出决策。 在实际应用中,输入通常是由数百帧组成的视频,且通常需要选择封面图。因此,视频中的时间依赖性不能简单地用静态编码方法来建模。 视频的封面图片应该是整个视频的突出点,而文本摘要也原创 2021-05-13 23:12:39 · 433 阅读 · 0 评论