论文笔记--Appearance-and-Relation Networks for Video Classification

最新推荐文章于 2024-08-15 17:20:12 发布

置顶

Never-guess

最新推荐文章于 2024-08-15 17:20:12 发布

阅读量1.9k

点赞数

分类专栏：计算机视觉文章标签：行为识别 3D卷积视频分类深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_20791919/article/details/78853278

版权

Appearance-and-Relation Networks for Video Classification是王利民组2017年底的发表的一篇工作。
主要工作是在3D卷积的基础上，提升了action recognition的准确率，而且没有像目前主流的two-stream方法那样使用使用光流信息，因为光流的提取速度特别慢，这是一个未来的研究趋势，更不会像IDT那套方法一样计算复杂。
虽然目前的state of art仍然是IDT那套。

话不多说，先给出王利民组的干货链接：
https://github.com/wanglimin/ARTNet

摘要
ARTNet主要是由SMART blocks 通过stacking的方法组合起来，就好像ResNet主要是由Residual blocks组合起来一样。它是一种直接输入RGB视频图像的端到端的视频理解模型。

1.介绍
这里写图片描述
这张图上从左到右，依次画出；Two-Stream，C3D和ARTNet的结构，可以看出后者对于前两者在结构上有一个很好的整合。
ARTNet是基于C3D-ResNet18实现的，训练的时候采用了TSN的稀疏采样策略。
这篇论文的主要贡献在于三个方面：第一，提出了SMART blocks块；第二，通过stacking的方法得出了ARTNet网络；第三，刷新了仅使用RGB输入的行为识别准确率。

2.相关工作
深度学习方面，主要有Two-Stream,C3D,LSTM三种方法的尝试，目前最好的是Two-Stream方法，本文看好C3D的方法，所以基于此方法做了改进。而LSTM相关的RNN方法效果暂时不明显，研究较少。
模型方面，本文的一大亮点是能量模型，使用了一种近似square-pooling的结构。与原结构不同之处在于三点：第一，从无监督到了有监督；第二，从仅有relation到有appearan