视频理解学习笔记(二):I3D and Kinetics Dataset

视频理解的三个流派(怎么处理时序)

  • LSTM (a): ConvNet + LSTM
  • 3D网络 (b): 3D-ConvNet
  • 双流网络,利用光流 (c): Two-Stream

其他

  • 将3D和双流结合 (d): 3D-Fused
  • I3D (e): Two-Sream I3D
    在这里插入图片描述

论文概览

Workshop: CVPR’17
论文标题:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

论文地址:https://arxiv.org/abs/1705.07750

论文作者

  • Joao Carreira from DeepMind
  • Andrew Zisserman from DeepMind and Department of Engineering Science, University of Oxford (他也是双流网络的二作)

主要贡献

  1. I3D:Two-Stream Inflated(扩大、膨胀)3D ConvNet,如何将2D模型扩大膨胀到3D模型。
  2. Kinetics Dataset

Kinetics Dataset

该数据集包括400个人类动作的类别,每个类别对应至少400的视频片段,且每个片段都来自不同的YouTube视频。每个视频片段(clip)都是10s。

模型详解

将2D卷积网络扩张到3D(Inflating 2D ConvNets into 3D)

Inflate:保持2D卷积网络框架,将2D的卷积核全部替换成3D的卷积核,将2D的pooling全部替换成3D的pooling。

如何用预训练好的2D网络来初始化3D网络(Bootstrapping 3D filters from 2D Filters)

bootstrap:引导
将2D图片重复n次获得一个n帧的boring video;将2D预训练好的模型的参数重复n次,并且rescale(即除以n,因为初始化要保证2D网络和3D网络面对同样的输入,可以得到同样的输出),赋给3D模型。

网络结构

在这里插入图片描述

实验

在这里插入图片描述

迁移学习实验效果:
在这里插入图片描述
肯定了预训练和迁移学习。

和其他方法对比:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值