视频动作质量评估:论文分享一Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

摘要:文章介绍一种新的基于2D膨胀卷积神经网络的双流膨胀3D卷积神经网络,使得从视频中学习无缝的时空特征提取器成为可能,同时利用成功的ImageNet架构设计参数。

介绍:作者的思路是从文献中重现一些具有代表性的神经网络架构,然后通过首先在Kinetics上预训练每个神经网络架构,然后在HMDB-51和UCF-101上对每个神经网络架构进行微调来分析它们的迁移行为。实验结果表明通过预训练总是可以提高性能。基于此,作者引入一个新的模型,该模型具有利用Kinetics预训练的能力,并可以实现高性能,即“Two-Strean Inflated 3D ConvNets(I3D)”。

行为分类架构:当前视频架构的一些主要差异在于卷积算子和层算子是使用2D(基于图像)还是3D(基于视频)内核,网络的输入是否只是一个RGB视频,或者还包括预先计算的光流;

Two-Stream Inflated 3D ConvNets:

Two-Stream Inflated 3D ConvNets 是一种用于视频动作识别的深度学习架构。这一架构结合了两个关键的组件:Two-Stream Network 和 Inflated 3D Convolutional Networks。

Two-Stream Network:

  1. 空间网络(Spatial Network):

    • 处理视频帧的静态外观信息。这个网络通常基于2D卷积神经网络(CNN)结构,比如经典的ImageNet上预训练的CNN。
  2. 时间网络(Temporal Network):

    • 处理视频帧的动态信息,关注视频中的运动和时序特征。通常使用3D卷积神经网络,能够捕捉时序维度上的特征。

Two-Stream Network 的结构使得网络能够同时考虑空间和时间的信息,更适用于视频动作识别任务。然而,这种结构可能需要更大的计算资源。

Inflated 3D Convolutional Networks:

Inflated 3D ConvNets 是指通过在预训练的2D模型基础上“膨胀”(inflate)得到3D模型。其思想是,通过复制和膨胀2D卷积核,构建3D卷积核,以利用大规模的2D图像数据进行预训练,然后将学到的权重应用于3D任务。

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值