Appearance-and-Relation Networks for Video Classification是王利民组2017年底的发表的一篇工作。
主要工作是在3D卷积的基础上,提升了action recognition的准确率,而且没有像目前主流的two-stream方法那样使用使用光流信息,因为光流的提取速度特别慢,这是一个未来的研究趋势,更不会像IDT那套方法一样计算复杂。
虽然目前的state of art仍然是IDT那套。
话不多说,先给出王利民组的干货链接:
https://github.com/wanglimin/ARTNet
摘要
ARTNet主要是由SMART blocks 通过stacking的方法组合起来,就好像ResNet主要是由Residual blocks组合起来一样。它是一种直接输入RGB视频图像的端到端的视频理解模型。
1.介绍
这张图上从左到右,依次画出;Two-Stream,C3D和ARTNet的结构,可以看出后者对于前两者在结构上有一个很好的整合。
ARTNet是基于C3D-ResNet18实现的,训练的时候采用了TSN的稀疏采样策略。
这篇论文的主要贡献在于三个方面:第一,提出了SMART blocks块;第二,通过stacking的方法得出了ARTNet网络;第三,刷新了仅使用RGB输入的行为识别准确率。
2.相关工作
深度学习方面,主要有Two-Stream,C3D,LSTM三种方法的尝试,目前最好的是Two-Stream方法,本文看好C3D的方法,所以基于此方法做了改进。而LSTM相关的RNN方法效果暂时不明显,研究较少。
模型方面,本文的一大亮点是能量模型,使用了一种近似square-pooling的结构。与原结构不同之处在于三点:第一,从无监督到了有监督;第二,从仅有relation到有appearan