AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记

最新推荐文章于 2024-05-18 09:39:06 发布

NeverMoreH

最新推荐文章于 2024-05-18 09:39:06 发布

阅读量472

收藏

点赞数 1

分类专栏： vision&language # video commenting 文章标签： AAAI2019 多模态实时弹幕

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/107505962

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

video commenting

3 篇文章 0 订阅

订阅专栏

目录

简介
动机
贡献
方法
实验

简介

本文出自北大孙栩老师课题组，是第一篇提出ALVC（Automatic Live Video Commenting）任务的文章。更确切的说，此task的目标是，生成video barrage（视频弹幕）。
下载链接

task challenge：弹幕和视频存在复杂的依赖关系。

动机

弹幕可以让视频变得更加有趣、吸引人。同时，弹幕可以在观众之间建立联系，使他们的意见和评论更加明显（弹幕 vs 评论）。这些特性会对用户数量、视频点击量、视频观看时长带来显著影响。

这个新的task也是一个很好的用于测试AI能力的平台，模型需要同时处理动态的视觉信息（视频）和动态的语言信息（弹幕）。

贡献

提出ALVC task。
基于Bilibili构造数据集，共包含2361个和895929条弹幕。
提出两个用于处理此task的baseline模型——Fusional RNN、Unified Transformer。
提出了基于检索的评估策略，对候选answers进行排序，再基于metrics进行评估。

方法

本文提出了两个处理此task的baseline模型，分别是：层级结构的Fusional RNN、线性结构的Unified Transformer。模型的结构如下二图所示，不具体介绍了，这两个baseline还是挺简单的，都是encoder+decoder的传统结构。

Fusional RNN
Unified Transformer

介绍一下ALVC任务的输入、输出形式。

输入：在视频 $V$ 中截取的 $m$ 帧 $I=\{ I_1,...,I_m \}$ 、时间戳 $t$ 、时间戳周围的弹幕（共计 $n$ 条） $C=\{ C_1,...,C_n \}$
输出：一条由 $k$ 个单词组成的弹幕 $y=\{ y_1,...,y_k \}$

数据集中的example：

下面介绍数据集的Evaluation Metrics：
首先，模型要根据log-likelihood score对一组candidate comments进行排序，candidate comments由四部分组成，分别是：ground truth、50 most similar comments、20 most popular comments、29 randomly selected comments。

Recall@k（越大越好）：topK中存在gt的比例
Mean Rank（越小越好）：顾名思义，gt的平均rank
Mean Reciprocal Rank（越大越好）：顾名思义，gt的平均reciprocal rank

实验

实验结果如下图所示，#I和#C分别代表使用的surrounding frame、surrounding comments的个数。

human evaluation metrics的结果：

NeverMoreH

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值