【视频理解】六、3D-ResNet


参考资料

论文

  Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

博客

  3D ResNet(Spatiotemporal 3D CNNs )

  论文复现笔记:3D ResNets for Action Recognition


第1章 引言

 深度卷积神经网络具有大量的参数,使用大规模的数据集是非常重要的,比如使用 ImageNet 大型图像数据集训练好的模型,迁移到其他的任务上进行 Fine-tuning ,这样能够提高模型的性能,也能够很好地迁移到其他的任务上。

然而与图像识别数据集相比,可用于动作识别的视频数据集相对较小。有代表性的视频数据集,如 UCF101HMDB-51 ,可以用来提供大小约为10K的真实视频,但即使它们仍然用作标准基准,这些数据集显然太小,无法用于从头优化CNN表示。

最近提出的Kinetics数据集的定位是视频数据集标准,大致相当于ImageNet与图像数据集相关的位置。为Kinetics 数据集收集了超过300K的视频,这意味着视频数据集的规模已经开始接近图像数据集的规模。

 因此作者尝试将2D网络中的 ResNet 迁移至3D网络中,并且在Kinetics数据集上从头开始训练。

在这里插入图片描述


第2章 网络结构

 作者介绍了几种不同的ResNet以及对应的模块,具体结构图如下:

在这里插入图片描述

在这里插入图片描述


第3章 实验

 各种ResNet模型结构的实验结果如下:

在这里插入图片描述

 在数据集上的结果:

在这里插入图片描述


第4章 Pytorch实现3D-ResNet

代码

  3D ResNets for Action Recognition

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

travellerss

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值