A Survey on Temporal Action Localization论文总结

爱发呆的WWT

已于 2022-11-07 15:25:05 修改

阅读量969

点赞数

分类专栏：时序动作定位文章标签：计算机视觉深度学习人工智能

于 2022-11-06 16:33:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60273616/article/details/127717330

版权

时序动作定位专栏收录该内容

14 篇文章 1 订阅

订阅专栏

A Survey on Temporal Action Localization论文总结

2020年的时序动作定位综述

文章是中国人写的，对我们来说很好读，逻辑也清晰，对于想了解时序动作定位这个领域的入门者来说很友好~

我把论文的要点进行了罗列，类似论文大纲~

论文地址：A Survey on Temporal Action Localization | IEEE Journals & Magazine | IEEE Xplore

摘要：

本文主要介绍了时序动作定位任务中的SOTA技术和模型，基准数据集、评价指标等；总结了强监督学习和弱监督学习的TAL；列举了有代表性的工作，对比它们的性能；最后做了深度分析及研究展望。

引言：

从视频理解五个子研究方向引出时序动作定位TAL，并说明子任务内容：
- 给出动作发生开始和结束的时间
- 给出动作类别
介绍了TAL任务相比图像检测来说存在的挑战和困难：
- 结合了时间序列信息
- 边界模糊，没法给出动作准确的边界
- 动作片段时间跨度不同
- 其他问题：多尺度、多目标、相机运动
说明该任务的研究热度和论文组织结构

相关技术：

传统方法-具有强解释性
- 提取视频特征：包括提取静态图像特征和时间视觉特征
  - 静态图像特征：SIFT、HOG
  - 时间视觉特征：静态图像特征和时序信息的结合
- 特征提取分成两类：局部和全局
  - 局部特征提取：
    - 包括统计学、字典学习、bag - of-words (BoW)和feature学习等。与全局特征相比，局部特征对视频照明、视角、相机抖动和复杂背景的适应性更强。
  - 全局特征提取：
    - 包括全局密度和轨迹方法
    - 基于特征点跟踪：Dense Trajectories(DT),iDt,深度学习和iDT的结合
深度学习方法
- 两阶段（待修改）
  - S-CNN、TAG、TURN、BSN、BMN
- 单阶段
  - 基于one-shot检测器：SSAD、SS-TAD
  - 基于高斯核：GTAN
  - 基于顺序决策过程

基准数据集

评价指标：

基本概念：accuracy、recall、precision、IoU
常用指标：AR、mAP、t-IoU

近期发展：

F-TAL
- 完全监督学习：是一个训练智能算法将输入数据映射到标签的过程。其中每个训练数据都有对应的标签表示ground truth。分类和回归是监督学习的代表。在时间动作定位任务中，全监督使用训练集的标签，既包含视频级别的类别标签，又包含动作段的时间注释信息(包括动作的开始和结束时间)。
- 当前代表方法
  
  当时的最高mAP是46.9% TSA-Net
  - 基于滑动窗口：S-CNN、PSDF
  - 逐帧预测：CDC
  - 基于边界匹配机制：BSN、BMN
  - 基于时间结构信息建模：SSN
  - 基于区域：R-C3D、TAL-Net
  - 精确动作定位：TSA-Net、高斯时序模型
W-TAL
- 弱监督学习：
  - 不完全监督，少量训练数据有标记，其余无标记
  - 不精确监督，训练数据只有粗粒度标签
  - 不准确监督，标记会有错误
- 当前代表方法（依赖于视频级标签来训练）
- 对W-TAL问题的见解
  - 多实例学习(MIL)被用于W-TAL。MIL模型不是使用一组单独标记的实例学习，而是接收一组标记的包，每个包包含许多实例。如果我们把视频中的动作实例看作一个袋子，视频级注释作为标签，那么W-TAL可以表述为一个多实例学习的过程。
  - 另一些方法：T-CAM、CAS。
  - 总之：弱监督减小了人工劳动和时间成本，增大检测难度，改进空间很大。

未来趋势：

精度和速度的提升
二维的探索
在线视频动作检测，实时检测
弱监督学习，（标记将数据的成本太大了
利用多模态数据

爱发呆的WWT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Survey on Temporal Action Localization论文总结

2020年的时序动作定位综述,文章是中国人写的，对我们来说很好读，逻辑也清晰，对于想了解时序动作定位这个领域的入门者来说很友好~我把论文的要点进行了罗列，类似论文大纲~本文主要介绍了时序动作定位任务中的SOTA技术和模型，基准数据集、评价指标等；总结了强监督学习和弱监督学习的TAL；列举了有代表性的工作，对比它们的性能；最后做了深度分析及研究展望。从视频理解五个子研究方向引出时序动作定位TAL，并说明子任务内容：给出动作发生开始和结束的时间给出动作类别。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。