code:https://github.com/facebookresearch/SlowFast
论文:SlowFast Networks for Video Recognition
没打算研究,但看到了何凯明三个大拼音,闪瞎了我的狗眼
一、模型长啥样?
很直观
以 ResNets 为例,展示怎么设置网络结构
很明显,转化的特点是:
- Slow/Fast可以是不同的任何模型
- 找尺寸相同的靠后层做几个侧链接,res4&res5 (前面层的加上不准)
- Fast要快,所以模型要小,Slow就正常就行
- slow:每16帧取1帧,fast: 每2帧取1帧
Slow 和 Fast 是怎么融合的?
- Time-to-channel: {αT, S2,βC} -> {T, S2, αβC},也就是原来多出来的时间维度,都当成通道了
- Time-strided sampling: {αT, S2, βC} -> {T, S2, βC},取α帧中的一帧来跟slow融合
- Time-strided convolution: stride = α的3D卷积。卷积核5x1x1 ,通道数=2βC
后面接分类结构就是分类模型。接检测结构就是个检测的模型