AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记

简介

本文出自北大孙栩老师课题组,是第一篇提出ALVC(Automatic Live Video Commenting)任务的文章。更确切的说,此task的目标是,生成video barrage(视频弹幕)。
下载链接

  • task challenge:弹幕和视频存在复杂的依赖关系。

动机

弹幕可以让视频变得更加有趣、吸引人。同时,弹幕可以在观众之间建立联系,使他们的意见和评论更加明显(弹幕 vs 评论)。这些特性会对用户数量、视频点击量、视频观看时长带来显著影响。

这个新的task也是一个很好的用于测试AI能力的平台,模型需要同时处理动态的视觉信息(视频)和动态的语言信息(弹幕)。

贡献

  • 提出ALVC task。
  • 基于Bilibili构造数据集,共包含2361个和895929条弹幕。
  • 提出两个用于处理此task的baseline模型——Fusional RNN、Unified Transformer。
  • 提出了基于检索的评估策略,对候选answers进行排序,再基于metrics进行评估。

方法

本文提出了两个处理此task的baseline模型,分别是:层级结构的Fusional RNN、线性结构的Unified Transformer。模型的结构如下二图所示,不具体介绍了,这两个baseline还是挺简单的,都是encoder+decoder的传统结构。

  • Fusional RNN
  • Unified Transformer

介绍一下ALVC任务的输入、输出形式。

  • 输入:在视频 V V V中截取的 m m m I = { I 1 , . . . , I m } I=\{ I_1,...,I_m \} I={I1,...,Im}、时间戳 t t t、时间戳周围的弹幕(共计 n n n条) C = { C 1 , . . . , C n } C=\{ C_1,...,C_n \} C={C1,...,Cn}
  • 输出:一条由 k k k个单词组成的弹幕 y = { y 1 , . . . , y k } y=\{ y_1,...,y_k \} y={y1,...,yk}

数据集中的example:

下面介绍数据集的Evaluation Metrics:
首先,模型要根据log-likelihood score对一组candidate comments进行排序,candidate comments由四部分组成,分别是:ground truth、50 most similar comments、20 most popular comments、29 randomly selected comments。

  • Recall@k(越大越好):topK中存在gt的比例
  • Mean Rank(越小越好):顾名思义,gt的平均rank
  • Mean Reciprocal Rank(越大越好):顾名思义,gt的平均reciprocal rank

实验

实验结果如下图所示,#I和#C分别代表使用的surrounding frame、surrounding comments的个数。

human evaluation metrics的结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值