Result:
Thumos14IoU=0.5时,MAP为25.6%
Motivation:
1)之前的S-CNN工作通过sliding windows,划分出proposal区域,为了获得高recall ,所以sliding windows 很密集,但是却high computation。
2)windows间有很多overlap,这些都是不必要的。
Contribution:
1)再做是/不是proposal的二分类基础上,同时进行temporal boundaries 的调整(通过temporal coordinate regression)。
2)S-CNN是将视频切分为 16, 32, 64, 128, 256, 512 (overlap 15%),现在是将视频切分为video units (no overlap)。
Method:
先将原视频剪成无重叠的短视频(6/16/32frames),对每段短视频采用现有的模型提取特征(C3D,双流CNN),得到特征单元(unit features)。