You Only Watch Once(YOWO): A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization
paper: https://arxiv.org/pdf/1911.06644.pdf
code: https://github.com/wei-tim/YOWO(暂未开源)
主要是提出了一种用于end-to-end动作分类和定位的方法。
效果如下:
整体结构:
1,2D-CNN:提取空间(关键帧)特征;
2,3D-CNN:提取时序(clip)特征;
3,Feature aggregation: Channel Fusion and Attention Mechanism (CFAM):采用通道堆叠融合2d和3d特征