参考资料
论文:
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
博客:
3D ResNet(Spatiotemporal 3D CNNs )
论文复现笔记:3D ResNets for Action Recognition
第1章 引言
深度卷积神经网络具有大量的参数,使用大规模的数据集是非常重要的,比如使用 ImageNet
大型图像数据集训练好的模型,迁移到其他的任务上进行 Fine-tuning
,这样能够提高模型的性能,也能够很好地迁移到其他的任务上。
然而与图像识别数据集相比,可用于动作识别的视频数据集相对较小。有代表性的视频数据集,如 UCF101
和 HMDB-51
,可以用来提供大小约为10K的真实视频,但即使它们仍然用作标准基准,这些数据集显然太小,无法用于从头优化CNN表示。
最近提出的Kinetics数据集的定位是视频数据集标准,大致相当于ImageNet与图像数据集相关的位置。为Kinetics 数据集收集了超过300K的视频,这意味着视频数据集的规模已经开始接近图像数据集的规模。
因此作者尝试将2D网络中的 ResNet
迁移至3D网络中,并且在Kinetics数据集上从头开始训练。
第2章 网络结构
作者介绍了几种不同的ResNet以及对应的模块,具体结构图如下:
第3章 实验
各种ResNet模型结构的实验结果如下:
在数据集上的结果:
第4章 Pytorch实现3D-ResNet
代码: