CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记

简介

本文的作者来自浦项科技大学和首尔大学
下载链接

动机

在Grounding领域,早些的方法都可以归结为scan-and-localize framework,主要包括两个步骤:1. 生成proposals;2. 根据matching score进行选择。但是这一类方法存在很大的弊端:获得matching score的过程中,使用text query的全局特征,丢失了用于定位的细节信息。后续,有人对方法进行了改进,将此task视为注意力定位问题,通过回归解决。弊端:局限于最具有判别力的短语,没有对context进行全面的理解。

贡献

  1. 将text query分为多个短语,每个短语作为context,与video进行交互。
  2. 从局部->全局,建模视频片段和短语的关系。
  3. 实验结果,large margin。

方法

本文方法的整体框架如图所示。

实验

在Charades-STA数据集上的实验结果:

在ActivityNet Captions数据集上的实验结果:

在Charades-STA数据集上的消融实验:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值