论文笔记--Appearance-and-Relation Networks for Video Classification

Appearance-and-Relation Networks for Video Classification是王利民组2017年底的发表的一篇工作。
主要工作是在3D卷积的基础上,提升了action recognition的准确率,而且没有像目前主流的two-stream方法那样使用使用光流信息,因为光流的提取速度特别慢,这是一个未来的研究趋势,更不会像IDT那套方法一样计算复杂。
虽然目前的state of art仍然是IDT那套。

话不多说,先给出王利民组的干货链接:
https://github.com/wanglimin/ARTNet

摘要
ARTNet主要是由SMART blocks 通过stacking的方法组合起来,就好像ResNet主要是由Residual blocks组合起来一样。它是一种直接输入RGB视频图像的端到端的视频理解模型。

1.介绍
这里写图片描述
这张图上从左到右,依次画出;Two-Stream,C3D和ARTNet的结构,可以看出后者对于前两者在结构上有一个很好的整合。
ARTNet是基于C3D-ResNet18实现的,训练的时候采用了TSN的稀疏采样策略。
这篇论文的主要贡献在于三个方面:第一,提出了SMART blocks块;第二,通过stacking的方法得出了ARTNet网络;第三,刷新了仅使用RGB输入的行为识别准确率。

2.相关工作
深度学习方面,主要有Two-Stream,C3D,LSTM三种方法的尝试,目前最好的是Two-Stream方法,本文看好C3D的方法,所以基于此方法做了改进。而LSTM相关的RNN方法效果暂时不明显,研究较少。
模型方面,本文的一大亮点是能量模型,使用了一种近似square-pooling的结构。与原结构不同之处在于三点:第一,从无监督到了有监督;第二,从仅有relation到有appearan

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值