1. Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs(SCNN)
SCNN主要分为三个部分:
Proposal network:一个二分类网络,判断
classification network:多分类网络,对视频片段进行K+1分类(K个动作类别+1个背景),并用于初始化localization网络,只有训练时用到
localization network:个人认为就是classification网络的终极形态,在分类网络基础上考虑了iou的因素,训练和推理时都用到了
具体参考 https://blog.csdn.net/qq_40178291/article/details/100575597
2. R-C3D
R-C3D是一个端到端的网络,借鉴了faster-rcnn,引入了anchor机制,由以下三个部分组成:
1) a shared 3D ConvNet feature extractor
2) a temporal proposal stage
3) an activity classification and refinement stage
这里只提一下R-C3D设置anchor的策略:在L长的图像序列中,每隔L/8处设一个中心,每个中心设置K个anchor。
3. TURN TAP
该文章主要贡献有:
1)引入类似目标检测的anchor机制,对动作在视频中的起始点和结束点作回归损失,以得到更准确的起始帧和结束帧
2)引入特征金字塔
3)引入新的性能衡量指标AR-F
具体可以参考 https://www.cnblogs.com/demian/p/9720597.html
4. BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation
参考 https://zhuanlan.zhihu.com/p/39327364
5. BMN:Boundary-Matching Network for Temporal Action Proposal Generation
参考 https://zhuanlan.zhihu.com/p/75444151
6. Learning Salient Boundary Feature for Anchor-free Temporal Action Localization (CVPR2021)
该文章主要使用anchor-free的方法。
由上图可知,整个框架由三个部分组成:
1) Feature Extraction:通过I3D网络提取T x C x H x W维特征,然后将后三维特征转为1维特征,并形成1D的特征金字塔;
2) Coarse Prediction:这边就是anchor-free的第一阶段,对于每个金字塔层,预测每个时间点上的左右边界距离,以及该proposal的分类,根据金字塔每一层的左右边界预测值可以得到对应的起始帧位置和 结束帧位置 (l表示金字塔中的第l层, i表示第i个时间段):
3) Refined Prediction:对于粗糙预测的结果,我们通过Saliency-based Refinement,根据粗糙预测中的每个proposal,利用boundary pooling寻找到最显著的boundary feature,用这个feature来优化每个建议区域的边界位置,并且得到精细预测的分类,最后还会输出该proposal的quality来表示该预测的质量。
关于使用boundary pooling获取最显著的特征的过程:
首先先对之前粗糙预测使用的位置特征进行维度变换:
然后选取之前预测的起始帧和结束帧前后一段时间的帧形成两个集合,选取的范围由如下公式决定:
然后就是使用boundary pooling在上述得到的两个集合对应的特征中寻找最显著的边界特征:
最后还会做一个特征拼接: