TCSVT2020|Event-centric hierarchical representation for dense video captioning

该研究提出了一种事件中心的层次化表示方法用于密集视频字幕,包括场景级、事件级和帧级的表示。通过场景级主题预测器、时间语义关系模块和事件提案网络,捕捉事件间的关联和全局场景信息。同时,引入时间语义关系模块和TL-NMS来优化事件提案和生成的字幕质量。在ActivityNet Captions和YouCook2数据集上进行了实验,验证了所提方法的有效性。
摘要由CSDN通过智能技术生成

Event-Centric Hierarchical Representation

  • Event-centric hierarchical representation for dense video captioning (TCSVT 2020)
  • 中山大学
  • github
  • 动机:Dense Video Captioning。以前的工作只关注简单的event-level context信息,忽视了event-event之间的关系以及全局场景信息。因此,本文提出了以event为中心的层次化representation,包括scene-level, event-level, frame-level。
    • scene-level: Topic Predictor
    • event-level: TSRM ( temporal-semantic relation module )
    • frame-level
    • 还提出了TL-NMS减少多余的event以提高生成captioning的质量
  • 数据集:ActivityNet Captions. YouCook2
  • 以前方法会导致逻辑的错误,因为没有注意到全局场景信息/事件之间的依赖关系(continue\end)
    在这里插入图片描述
    在这里插入图片描述
  • <
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值