TALL: Temporal Activity Localization via Language Query

这是ICCV2017 Spotlight的一篇关于temporal activity localization via language query in an untrimmed video的文章,paper连接https://arxiv.org/abs/1705.02101,作者的homepage https://jiyanggao.github.io/,code已经被released出来了https://github.com/jiyanggao/TALL
文章要做的事情:
输入:sentence+video      输出:video clip
文章中show出来的example如下所示。
example on Charades-STA dataset
example on TACoS dataset
文章中show出来的实验结果如下所示。
results

method

文章中的framework如下所示。
framework

文章主要由两个loss function组成(和Fast-RCNN比较像)。

  • alignment loss。找video clip与sentence的match,采用滑动的窗口对视频片段进行滑动,滑动窗口的大小分为[64,128,256,512](训练),测试的时候是128,正例的样本需要满足三个条件:
    1 .重叠的部分大于0.5。
    2 .不重叠的部分小于0.2。
    3 .一个滑动窗口只能描述一个句子。

  • location regressor loss。对开始和结束的时间进行回归。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值