NIPS18 | Weakly Supervised Dense Video Caption in Videos

该研究介绍了一种弱监督方法,用于标注视频中的稠密事件,减少对昂贵的人工标注需求。通过一一对应假设,将问题分解为事件描述和语句定位的对偶问题,实现模型训练。实验表明,这种方法能有效进行事件标注和语句定位。模型由语句定位器和描述生成器组成,以视频和事件描述为输入,生成时间和描述。这是首个忽略事件起止时间标注的工作,使用ActivityNet Captions数据集,并与其他弱监督方法进行对比。
摘要由CSDN通过智能技术生成
  • Weakly Supervised Dense Video Caption in Videos,NIPS2018

  • 这项研究由腾讯 AI Lab 与清华大学、麻省理工学院(MIT)和微软亚洲研究院(MSRA)

    合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法,从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练,而是基于一一对应假设,即每个时间区间只有一个语言描述,而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中都成立。基于此,研究者将原问题分解为了一对对偶问题:事件描述和语句定位,并提出了一个用于训练模型的循环系统。研究者进行了大量实验,结果表明该方法能同时解决视频中的稠密事件标注和语句定位这两个任务。
    在这里插入图片描述

  • 新提出的模型结构及其训练连接如上图所示。该模型由一个语句定位器和一个描述生成器组成。在训练过程中,模型可使用视频及其所有的事件描述。首先语句定位器会使用视频和其中一个事件描述来获得一个时间片段预测,然后描述生成器会使用这个时间片段来生成一个描述语句。

  • 定义了一个新问题:Weakly Supervised Dense Event Captioning 弱监督密集视频字幕

    • 一般的密集视频字幕,不仅需要一段话的文本标注,也需要event起止时间标注。本文提出不需要起止时间标注,只需要文本标注,因此为弱监督密集视频字幕。
    • 数据集:ActivityNet Captions</
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值