源码: https://go.ctolib.com/article/wiki/104234
弹幕,已经成为人们看视频的一种习惯;不同用户之间的弹幕往往会形成上下文回复关系,更让弹幕成为一种新的社交模式。基于这一现象,微软亚洲研究院设计了一款名为 LiveBot 的自动弹幕生成系统。在这一系统中需要克服两个难点:一是要充分理解视频内容,根据其他用户的评论弹幕生成适当的内容;二是要在合适的时间点显示在对应的视频帧之上。
实验结果表明,LiveBot 能够准确地学习到真实用户在观看视频时进行弹幕评论的行为特点,有效地进行了视频内容的理解和用户评论的交互,同时在客观评价指标上也取得优异的成绩。
无监督机器翻译的最新性能提升
最近一年,无监督机器翻译逐渐成为机器翻译界的一个研究热点。在无监督场景下,神经机器翻译模型主要通过联合训练(joint training)或交替回译(iterative back-translation)进行逐步迭代。但是由于缺乏有效的监督信号,回译得到的伪训练数据中会包含大量的噪音,这些噪音在迭代的过程中,会被神经机器翻译模型强大的模式匹配能力放大,从而损害模型最终的翻译性能。
摘要
弹幕的内容一般是对该视频的评论以及与其他弹幕的交流互动,自动生成实时的弹幕需要AI能理解视频内容和他人发的弹幕(真人),所以这是一个很适合AI同时处理动态视觉和语言的测试平台。在本次论文工作中,我们构建了一个大规模的弹幕数据集,包括了2361个视频中的895929条评论。然后我们将引入两个神经网络生成基于视觉和文本上下文的实时弹幕,比之前的seq2seq有着更好的表现。最后,我们针对自动实时评论提供一个基于检索的评估协议,要求模型对一组由对数似然得到的候选评论进行分类,并评估相应衡量指标(如平均倒数等级?)。最后放到一起,展示了第一个“livebot”
介绍
基于弹幕的种种优势,我们提出一个新的任务:自动弹幕生成。弹幕及有对视频的评论,也有对他人发的弹幕的回应,所以自动生成实时的弹幕需要AI能理解视频内容和他人发的弹幕(真人)并能做出回应。所以这是一个很适合AI同时处理动态视觉和语言的测试平台。
现在已经有很多任务可以用来评估AI处理视觉与语言的能力,包括 image captioning 图像字幕 (Donahue et al. 2017; Fang et al. 2015; Karpathy and Fei-Fei 2017), video description (Rohrbach et al. 2015; Venugopalan et al. 2015a; Venugopalan et al. 2015b), visual question answering (Agrawal, Batra, and Parikh 2016; Antol et al. 2015), and visual dialogue (Das et al. 2017).
弹幕生成与上述任务都不同,图像字幕目的是生成图像的文字描述,视频描述是生成对视频的描述,这两个任务都只需要机器理解图像或视频,而不需要与真人有交流。视觉问题回答和视觉对话则在人机交互迈出了重要的一步。给一个图像,机器要回答出关于图像的问题或者能与人类进行多轮对话。而与这两种任务不同的是,弹幕需要理解视频并且分享观点或观看他人经验,是一项更有挑战性的任务。
自动弹幕的独特挑战是评论与视频之间复杂的依赖关系,首先,弹幕与视频以及当前时刻的其他弹幕有关,而当前时刻的其他弹幕也都依赖与视频。其次,弹幕不仅取决于当前视频帧,还取决