-
Weakly Supervised Dense Video Caption in Videos,NIPS2018
-
这项研究由腾讯 AI Lab 与清华大学、麻省理工学院(MIT)和微软亚洲研究院(MSRA)
合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法,从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练,而是基于一一对应假设,即每个时间区间只有一个语言描述,而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中都成立。基于此,研究者将原问题分解为了一对对偶问题:事件描述和语句定位,并提出了一个用于训练模型的循环系统。研究者进行了大量实验,结果表明该方法能同时解决视频中的稠密事件标注和语句定位这两个任务。
-
新提出的模型结构及其训练连接如上图所示。该模型由一个语句定位器和一个描述生成器组成。在训练过程中,模型可使用视频及其所有的事件描述。首先语句定位器会使用视频和其中一个事件描述来获得一个时间片段预测,然后描述生成器会使用这个时间片段来生成一个描述语句。
-
定义了一个新问题:Weakly Supervised Dense Event Captioning 弱监督密集视频字幕
- 一般的密集视频字幕,不仅需要一段话的文本标注,也需要event起止时间标注。本文提出不需要起止时间标注,只需要文本标注,因此为弱监督密集视频字幕。
- 数据集:ActivityNet Captions</
NIPS18 | Weakly Supervised Dense Video Caption in Videos
最新推荐文章于 2024-03-14 16:13:35 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)