这是ICCV2017 Spotlight的一篇关于temporal activity localization via language query in an untrimmed video的文章,paper连接https://arxiv.org/abs/1705.02101,作者的homepage https://jiyanggao.github.io/,code已经被released出来了https://github.com/jiyanggao/TALL。
文章要做的事情:
输入:sentence+video 输出:video clip
文章中show出来的example如下所示。
文章中show出来的实验结果如下所示。
method
文章中的framework如下所示。
文章主要由两个loss function组成(和Fast-RCNN比较像)。
alignment loss。找video clip与sentence的match,采用滑动的窗口对视频片段进行滑动,滑动窗口的大小分为[64,128,256,512](训练),测试的时候是128,正例的样本需要满足三个条件:
1 .重叠的部分大于0.5。
2 .不重叠的部分小于0.2。
3 .一个滑动窗口只能描述一个句子。location regressor loss。对开始和结束的时间进行回归。