arxiv: https://arxiv.org/abs/1711.09125
github: https://github.com/wanglimin/ARTNet
本文提出一种新的架构,学习视频时空特征,称为外观和关系网络(Appearance and Relation—ARTNet),以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块,称为SMART,来构建的,其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支和用于时间建模的关系分支。外观分支是基于每帧中像素或滤波器响应的线性组合来实现的,而关系分支是基于多帧中像素或滤波器响应之间的惩罚交互来设计的。作者在Kinetics、UCF101和HMDB51数据集上进行了实验,证明了SMART块在时空特征学习方面比3D卷积有明显的改进。作者认为两个视觉线索对视频分类很重要:1.每帧中的静态外观;2.多帧之间的时间关系。
具体地,外观分支用标准2D卷积实现,关系分支用方形池结构实现。来自两个分支的响应被进一步串联并简化为更紧凑的表示。
作者提出了一个外观和关系网络(ARTNet)通过堆叠一组智能块。从本质上讲,视频域中的外观信息和关系信息呈现出多尺度的时空结构。ARTNet能够以分层的方式捕捉这种视觉结构,早期层的智能单元侧重于在短期内描述局部结构,而后期层的智能单元可以捕捉到越来越粗