Appearance-and-Relation Networks for Video Classification
简介
- 提出ARTNet,学习端到端的视频表征
- ARTNets是由多个SMART blocks堆叠而来的,SMART可用于同时从RGB输入中建模出appearance与relation
- SMART将spatiotemporal学习分为两部分:用于空间建模的appearance分支与用于时间建模的relation分支
- appearance分支:每帧的像素或是过滤器responses的线性结合
- relation分支:跨多帧的像素与filter responses之间的multiplicative interactions
- 文中实验数据集:Kinetics, UCF101, HMDB51,证明了SMART blocks在时空域特征学习中表现优于3D卷积,且ARTNet SOTA
网络结构
Video architecture comparison
图a是一个two-stream CNNs,图b是3D CNNs:
图c就是本文提出的基于SMART building block的ARTNet的结构:
可以看到,two-stream CNNs有两个输入分别是RGB frame与optical flow,3D CNNs则是通过单个3D卷积联合且implicitly来建模的。ARTNet采取一种appearance与relation的分支方式,来分开的显示的同时建模。
SMART blocks
- (a)中的3D卷积学习时空域特征jointly and implicitly
- (b)中的square-pooling层结构是本文首次提出的,用于学习独立于appearance外的帧间关系学习
- ©进而构造出了SMART block来学习时空域特征separately and explicitly,下半部分是使用了2D卷积的appearance分支,用于捕捉静态结构,上半部