ECCV2018 | Move forward and tell: A progressive generator of video descriptions

本文提出了一种用于Dense Video Captioning的渐进式生成方法,旨在提高描述的连贯性和减少冗余。通过结合事件定位、事件选择和描述生成三个模块,解决了以往方法存在的问题。事件选择模块利用LSTM避免了文本重复,描述生成模块则利用前一事件的信息确保句子间的连贯性。在ActivityNet Captions数据集上的实验表明,该方法在减少重复性方面表现优秀。
摘要由CSDN通过智能技术生成

文章

  • Move forward and tell: A progressive generator of video descriptions
  • ECCV 2018
  • 港中文 林达华
  • 动机:使用强化学习解决Dense Video Captioning问题,数据集ActivityNet Captions
    • 以前的方法缺乏语句之前的依赖,所以连贯性差
    • 以前的方法缺乏文本和视觉之间的对齐,所以重复、冗余

评估caption的三个目的

  • relevant 相关的 文本和视频之间的对齐
  • coherent 连贯一致的 文本层面的逻辑一致和连贯性
  • concise 简洁的 句子之间没有重复冗余

方案:三个模块

在这里插入图片描述

  • event localization

    • Temporal action detection with structured segment networks. ICCV 2017
    • 使用别人现成的开源代码 还可以顺便计算关键帧
  • event selection
    在这里插入图片描述

    • LSTM实现。挑选独立事件,且与之前的事件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值