1、引言
论文链接:https://arxiv.org/abs/1711.11248
在这篇文章中作者更细致地研究了用于行为识别任务中的时空卷积,即在 ResNet[1] 框架下做了大量 2D CNN 到 3D CNN 的实验,证明了 3D CNN 在残差学习框架下的优势,并引入了 2 种新的时空卷积形式 MCx 和 R(2+1)D[2],其中 R(2+1)D 在 Sports-1M 上达到 SOTA,在 Kinetics, UCF101, 和 HMDB51 上接近 SOTA。
2、R3D
R3D[2] 只是把 ResNet 的所有卷积层换成了对应的 3D 卷积,自然所有的 BatchNorm2d 层要改为 BatchNorm3d,分类头前的 AdaptiveAvgPool2d 层要替换为 AdaptiveAvgPool3d。但 R3D 的第一个卷积层的卷积核尺寸为(3,7,7),stride=(1, 2, 2)。即第一个卷积层卷积核时间尺寸与空间尺寸不同,且没有时间 striding。
2、MCx
作者把 ResNet 的卷积分为 5 组,对应于 ResNet 的 5 层。x 代表 x 组及其后面的卷积都是 2D 卷积(3D 卷积核时间尺寸为

最低0.47元/天 解锁文章
2605

被折叠的 条评论
为什么被折叠?



