Dense-Captioning Events in Videos

密集视频字幕(video captioning的小方向)方向的开山之作,识别视频中的所有事件,同时用描述检测到的所有事件。

引入现有proposal模块的变体,该模块用于捕获跨分钟的短事件和长事件。同时引入新的captioning模块,使用前后事件的上下文信息来描述当前事件。提到ActivityNet Captions数据集。

1.介绍

大规模活动数据集的发展,推动将视频分类成一组离散的动作类别,可以输出动作标签。但是由于缺乏细节,后续工作探索使用句子来解释视频语义。虽然信息增加,但无法识别视频中的所有其他事件,比较单一。因此提出DVC,用于定位并描述视频中的所有事件。

提出两个问题,第一是密集事件字幕中的事件,在时间上存在交叉或重叠,目前的最好的action proposal是Daps(Daps: Deep action proposals for action understanding.),扩展为multi-scale detection of events。第二是视频的事件通常是彼此相关,所以必须考虑用前后事件的上下文信息为该事件生成caption,引入一个可以读取proposal模块中所有事件上下文的caption模块生成caption。还展示了一个caption模块的变体,可以只关注过去的事件来对streaming videos进行操作。

2.相关工作

密集事件字幕涉及两个工作:temporal action proposals,video captioning。首先是第一个工作,涉及活动识别(activity recognition),活动检测和temporal proposals。然后第二个工作,从video retrieval到video summarization,再到单句captioning。

活动识别领域从早期基于隐马尔可夫模型(HMM)和支持向量机(SVM)的传统方法,向现代基于深度学习特征的方法的发展历程,并指出了当前工作的独特之处,即通过自然语言描述活动而非仅仅使用标签。时序动作提议方法从传统滑动窗口到更高效的基于模型的提议方法的演变,DAPs(Deep Action Proposals)引入了一个框架,允许使用滑动窗口提出重叠的片段,这种方法减少了每帧的重复处理。并介绍了当前工作的创新,即通过去除滑动窗口和引入多尺度采样来进一步提高提议效率和处理长时间动作的能力。

视频摘要在使用低级视觉特征和用户输入来选择重要片段的同时,这些方法也面临着词汇量限制和缺乏对视觉事件解释能力的评估等局限性。视频字幕生成方法从简单均值池化到层次化RNN模型,作者在此基础上通过引入新数据集和改进模  型来更好地处理时间定位和事件依赖性问题的创新工作。以密集图像字幕工作为基础,整合空间注意力,设计了captioning模块。

3.密集事件模型

proposal模块借鉴的是Daps: Deep action proposals for action understanding,captioning模块借鉴的是Social lstm: Human trajectory prediction in crowded spaces。输入视频帧,输出句子(开始时间,结束时间,单词)。先将视频帧输入proposal模块,获取一组proposals,会有时间和分数,以及隐藏表示h,后续用作captioning模块的输入,输出描述。

给定视频,生成特征序列。实验中以16帧为单位,输入C3D提取特征。 proposal模块会在每一个时间步输出k个proposals,采用LSTM结构,输入上述C3D特征序列,用不同的步长提取特征序列(1,2,4,8)},不使用DAP的非极大值抑制来消除重叠输出,全部分开并视为单独的event,所以生成的proposal在时间上会有重叠。每检测出一个event,就将当前的隐藏层状态作为视频描述。captioning模块利用相邻事件的上下文来生成当前事件读的描述。采用LSTM结构,将所有的事件相对于当前事件分成两个桶:past events和future events。并发事件则依据结束时间分成past events和future events。两个模块分别使用交叉熵损失来训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值