TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)
Motivation
实现快速和准确地抽取出视频中的语义片段
Proposed Method
-提出了TURN模型预测proposal并用temporal coordinate regression来校正proposal的边界
-通过复用unit feature来实现快速计算
主要步骤如下:
Video Unit Processing:
将输入的视频平均分为多个video units,每一个unit包含16帧。将每一个unit送入visual encoder(C3D)中,提取unit-level的特征。Clip Pyramid Modeling:
以每一个unit为anchor unit,构造一个clip pyramid。首先,每一个temporal window pyramid(深蓝色部分)由{1,2,4,…}个unit构成,然后在每个temporal window的前后加上一定数量的context unit(浅蓝色部分)构成clip。将每一个clip送入Feature Pooling,最终的feature由下面的公式表示:
其中为internal units,为context units,P为Mean Pooling。- Unit-level Temporal Coordinate Regression:
网络包含两个输出:第一个输出confidence score判断clip中是否包含action,第二个输出temporal coordinate regression offsets。回归偏移量由下式表达:
s和e分别表示起始unit和终止unit的位置 - Loss function:
正样本定义为:(1)与GT的tIoU最大的样本(2)与GT的tIoU大于0.5的样本
负样本定义为:与GT的tIoU为0的样本
Multi-task Loss:
第一项 Lcls