这篇文章是ICCV 2017的一篇文章,作者主要是以C3D网络为基础。借鉴了Faster RCNN的思路,对于任意的输入视频L,先进行proposal,然后3D-pooling,最后后进行分类和回归操作。文章主要贡献点有3个:
- 可以针对任意长度视频、任意长度行为进行端到端的检测
- 速度很快(是目前网络的5倍),通过共享Progposal generation 和Classification网络的C3D参数
- 作者测试了3个不同的数据集,效果都很好,显示了通用性。
一、网络结构
整个网络可以分为四个部分:
- 特征提取网络:对于输入任意长度的视频进行特征提取
- Temporal Proposal Subnet: 用来提取可能存在行为的时序片段(Proposal Segments)
- Activity Classification Subnet: 行为分类子网络
- Loss Function
下图是整个网络结构图。
1.1 特征提取网络
骨干网络作者选择了C3D网络,经过C3D网络的5层卷积后,可以得到512 x L/8 x H/16 x W/16大小的特征图。这里不同于C3D网络的是,R-C3D允许任意长度的视频L作为输入。