文章目录
Video Classification
Early Fusion, Late Fusion, 3D CNN,
Recognizing Actions from Motion 从动作中识别行为
- Measuring Motion: Optical Flow
- Separating Motion and Appearance: Two-Stream Networks: Images(空间信息), Flow(时间信息)
目前介绍的都是只能处理2s~5s的视频的模型。
如果想处理长视频怎么办?
我们之前学过RNN,但是RNN应用在长序列里面会非常的慢,不能并行(parallelized)。Self-Attention是可以并行计算的
接下来介绍新技术