NIPS18 ｜ Weakly Supervised Dense Video Caption in Videos

最新推荐文章于 2024-03-14 16:13:35 发布

yyyyyyyyXu

最新推荐文章于 2024-03-14 16:13:35 发布

阅读量569

点赞数 1

分类专栏：阅读笔记

本文链接：https://blog.csdn.net/qq_40711769/article/details/110221353

版权

该研究介绍了一种弱监督方法，用于标注视频中的稠密事件，减少对昂贵的人工标注需求。通过一一对应假设，将问题分解为事件描述和语句定位的对偶问题，实现模型训练。实验表明，这种方法能有效进行事件标注和语句定位。模型由语句定位器和描述生成器组成，以视频和事件描述为输入，生成时间和描述。这是首个忽略事件起止时间标注的工作，使用ActivityNet Captions数据集，并与其他弱监督方法进行对比。

摘要由CSDN通过智能技术生成

Weakly Supervised Dense Video Caption in Videos，NIPS2018
这项研究由腾讯 AI Lab 与清华大学、麻省理工学院（MIT）和微软亚洲研究院（MSRA）

合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法，从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练，而是基于一一对应假设，即每个时间区间只有一个语言描述，而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中都成立。基于此，研究者将原问题分解为了一对对偶问题：事件描述和语句定位，并提出了一个用于训练模型的循环系统。研究者进行了大量实验，结果表明该方法能同时解决视频中的稠密事件标注和语句定位这两个任务。
新提出的模型结构及其训练连接如上图所示。该模型由一个语句定位器和一个描述生成器组成。在训练过程中，模型可使用视频及其所有的事件描述。首先语句定位器会使用视频和其中一个事件描述来获得一个时间片段预测，然后描述生成器会使用这个时间片段来生成一个描述语句。
定义了一个新问题：Weakly Supervised Dense Event Captioning 弱监督密集视频字幕
- 一般的密集视频字幕，不仅需要一段话的文本标注，也需要event起止时间标注。本文提出不需要起止时间标注，只需要文本标注，因此为弱监督密集视频字幕。
- 数据集：ActivityNet Captions</

最低0.47元/天解锁文章

yyyyyyyyXu

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NIPS18 ｜ Weakly Supervised Dense Video Caption in Videos

Weakly Supervised Dense Video Caption in Videos，NIPS2018这项研究由腾讯 AI Lab 与清华大学、麻省理工学院（MIT）和微软亚洲研究院（MSRA）合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法，从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练，而是基于一一对应假设，即每个时间区间只有一个语言描述，而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中..
复制链接

扫一扫

专栏目录