视频时序动作定位的一些总结

1. Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs(SCNN)

SCNN主要分为三个部分:

Proposal network:一个二分类网络,判断

classification network:多分类网络,对视频片段进行K+1分类(K个动作类别+1个背景),并用于初始化localization网络,只有训练时用到

localization network:个人认为就是classification网络的终极形态,在分类网络基础上考虑了iou的因素,训练和推理时都用到了

具体参考 https://blog.csdn.net/qq_40178291/article/details/100575597

2. R-C3D

R-C3D是一个端到端的网络,借鉴了faster-rcnn,引入了anchor机制,由以下三个部分组成:

    1) a shared 3D ConvNet feature extractor

    2) a temporal proposal stage

    3) an activity classification and refinement stage

这里只提一下R-C3D设置anchor的策略:在L长的图像序列中,每隔L/8处设一个中心,每个中心设置K个anchor。

3. TURN TAP

该文章主要贡献有:

    1)引入类似目标检测的anchor机制,对动作在视频中的起始点和结束点作回归损失,以得到更准确的起始帧和结束帧

    2)引入特征金字塔

    3)引入新的性能衡量指标AR-F

具体可以参考 https://www.cnblogs.com/demian/p/9720597.html

4. BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation

参考 https://zhuanlan.zhihu.com/p/39327364

5. BMN:Boundary-Matching Network for Temporal Action Proposal Generation

参考 https://zhuanlan.zhihu.com/p/75444151

6. Learning Salient Boundary Feature for Anchor-free Temporal Action Localization (CVPR2021)

该文章主要使用anchor-free的方法。

由上图可知,整个框架由三个部分组成:

1)  Feature Extraction:通过I3D网络提取T x C x H x W维特征,然后将后三维特征转为1维特征,并形成1D的特征金字塔;

2)  Coarse Prediction:这边就是anchor-free的第一阶段,对于每个金字塔层,预测每个时间点上的左右边界距离,以及该proposal的分类,根据金字塔每一层的左右边界预测值可以得到对应的起始帧位置和           结束帧位置 (l表示金字塔中的第l层, i表示第i个时间段):

3) Refined Prediction:对于粗糙预测的结果,我们通过Saliency-based Refinement,根据粗糙预测中的每个proposal,利用boundary pooling寻找到最显著的boundary feature,用这个feature来优化每个建议区域的边界位置,并且得到精细预测的分类,最后还会输出该proposal的quality来表示该预测的质量。

关于使用boundary pooling获取最显著的特征的过程:

         首先先对之前粗糙预测使用的位置特征进行维度变换:

 


         然后选取之前预测的起始帧和结束帧前后一段时间的帧形成两个集合,选取的范围由如下公式决定:

         然后就是使用boundary pooling在上述得到的两个集合对应的特征中寻找最显著的边界特征:

        最后还会做一个特征拼接:

 

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值