动作检测深度学习方法的调研和思考

1. STAD介绍

动作检测spatio-temporal action detection (STAD)的目的是对视频中的人物动作进行时空定位分类

动作检测模型可以被分为两类:帧级(frame-level)和剪辑片段级(clip-level

  • 帧级:在视频的每一帧上独立应用动作检测器生成2D边界框,然后用连接算法将每一帧的检测结果关联,生成3D动作管(action tubes)
  • 剪辑片段级:输入短视频片段,直接输出片段中的3D时空管(3D spatio-temporal tubelet)建议。然后将连续的视频片段中的管建议连接在一起形成完整动作管

在线动作检测任务需要对捕获到的帧即时处理,即时给出动作的定位和分类。下面我将主要介绍帧级模型中的具有高效和实时速度(High efficiency and real-time speed)的模型。

2. 高效实时动作检测

2.1 双流SSD——2016

论文标题:Online Real-time Multiple Spatiotemporal Action Localisation and Prediction

在这里插入图片描述

论文发表于2016年,此时I3D网络还未提出,最主流的视频识别网络还是双流神经网络。

双流网络由两个主干网络组成,RGB流和光流,RGB流提取空间特征,光流提取运动特征

由于光流的提取非常耗时且占用空间,基于光流的方法在视频识别和视频检测中逐渐被3D时空卷积方法淘汰。

作者提出的网络在双流神经网络的基础上引入了SSD,做到了实时的动作定位和分类。

单阶段网络优点:

  • 单阶段网络相比于双阶段网络有更快的计算速度。
  • 两阶段网络需要分别训练区域提议网络和分类网路,只能找到局部最优解。单阶段网络检测器与动作分类器联合训练,避免了这个问题。
  • 单阶段网络的训练成本相比于两阶段网络更低,不需要额外用COCO数据集预训练RPN。

RGB流生成基于外观的检测框,光流生成基

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值