TDN: Temporal Difference Networks for Efficient Action Recognition
存在的问题
这是一篇动作识别方向的文章,之前的时空建模方法大致分为两种,一种是双流网络,一个RGB流一个光流,利用光流捕获运动信息,计算量很大;另一种方法是使用3D卷积,从RGB信息中隐式学习运动特征,但是3D卷积在时间维度缺乏特定的考虑(3D卷积学出来的时序weight的分布基本一致,更多的还是对时序上的信息做一种平滑聚合)且需要更多的算力。也有使用RGB Difference作为另一个输入,作为光流的替代品,训练不同的网络与RGB信息融合。
解决办法
作者提出Temporal Difference Network(TDN),来提取多尺寸的时间信息(multi-scale temporal information),TDN作为一个统一的框架来联合捕获RGB和运动信息,通过将时间差异的思想概括为端到端网络的有原则且高效的时间模块。之前有双流(RGB+帧差),我理解的是作者将帧差这一流改成了一个框架(大致思想和帧差类似),并且可以提取短时和长时两种特征来增强信息。
作者认为短期和长期时间信息对于动作识别都至关重要,