1.核心网络结构
分别高频与低频图像数据;分别进行特征提取;特征融合;预测(分类)
低频:处理环境特征,低频 ,故后续网络结构更复杂
高频:处理动作信息,高频,3d卷积设计更简单
动作特征往环境当中融
大小不同如何拼接?
slow pathway 提取环境信息
在特征提取时:conv1
1×7×7 1时间维度 由于环境信息 不关注时间维度 故取1
64:输出特征图个数
stride:1,2×2 (下采样)
fast pathway 提取动作信息
conv1 5×7×7 每隔5帧取一帧
8:由于输入数量大,故输出特征图减少更多
第一种使用最多
第二种丢失了信息
第三种相当于又做了一次3d卷积(论文中使用)
2.环境配置
安装requirements中的配置
文件中 带路径的改成自己的路径
3.