一、一个通用的行为识别框架(facebook)
二、核心网络结构
1.分别获取高频(取行为)与低频图像(取背景环境)数据;
2.分别进行特征提取;
3.特征融合;
4.预测
三、网络结构细节
- datalayer:对视频进行采样;
- 不同stride得到不同帧数数据;
- stride的width和height相同;
- 输出结果:slow:4,fast:32
- 3D resnet层:提取特征;
- slow与fast提取特征目的不同;
- 均使用3D卷积计算;
- fast计算要更轻量级;
四、特征融合
三种方案:
最优:第三种;
五、效果分析