【论文复现PaddlePaddle】 Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognit

本文介绍了基于PaddlePaddle复现的论文——使用3D残差网络学习时空特征进行动作识别。对比了2D ResNets和C3D网络,3D ResNets在ActivityNet和Kinetics数据集上展示出优越性能,尤其是在大规模数据集上避免过拟合。
摘要由CSDN通过智能技术生成

【论文复现PaddlePaddle】 # Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition(一)论文阅读

这篇文章是一篇2017ICCV ,该篇论文提出了一种基于2D ResNets 的3D ResNets网络结构。

卷积神经网络在动作识中有着较高的性能,基于CNN的动作识别的流行方法之一是二维卷积核的双流CNN,由RGB和叠加光流帧组成的双流体系结构来获取视频中的时空信息。另一种是使用3D卷积核提取视频中的时空特征。由于已有的C3D网络会产生大量参数,整个网络的体系结构相对较浅,对动作的识别还不够,于是作者就加入了ResNets网络。
尽管模型的参数依然很多,但是比相对较浅的网络(如 C3D)获得了更好的性能。

网络结构

论文中提出了一种3D ResNets 的网络结构。输入大小为3 × 16 × 112 × 112。每个卷积层后面都有批归一化和RELU。 下采样由conv3_1, conv4_1, conv5_1执行, 步长为2。最后一个完全连接层的维度被设置为Kinetics数据集(400个类别)

残差结构
网络结构

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时空动作检测(spatio-temporal action detection)是一项计算机视觉任务,旨在从视频片段中准确地检测和识别出发生的动作。与传统的动作识别任务相比,时空动作检测旨在通过不仅仅检测动作在空间上的出现,还要捕捉动作在时间上的变化。 时空动作检测往往涉及以下几个主要步骤: 1. 帧级特征提取:首先,利用现有的特征提取技术,从每个视频帧中提取稳定而有信息量的特征,以捕捉空间信息。 2. 时间建模:接下来,通过对连续帧之间的变化进行建模,来捕捉动作的时间相关性和动态信息。这可以通过各种技术,如光流,差分图和循环网络等来实现。 3. 动作检测:在获得空间和时间特征后,利用学习算法(如深度神经网络)来进行动作检测。这通常通过将时空特征输入到分类器,然后根据预先训练的模型推断动作类别和位置。 4. 时空定位:最后,定位动作在视频中的准确位置。这可以通过在时间上进行滑窗检测,并使用非极大值抑制来抑制重叠检测结果来实现。 时空动作检测在很多领域具有广泛应用,比如视频监控、智能交通、运动分析和人机交互等。通过准确地检测和识别动作,我们可以实现更精确的行为理解和动作预测,从而为许多实际应用带来便捷和效益。然而,时空动作检测仍然存在一些挑战,如动作遮挡、背景干扰和不同尺度的动作等问题,所以该领域的研究仍在不断发展和进步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值