2017-Appearance-and-Relation Networks for Video Classification视频分类中的外观与关系网络

本文介绍了一种新的视频分类架构——ARTNet,它通过SMART模块学习时空特征,包含外观分支和关系分支,以独立和明确的方式捕获外观和关系。实验表明,SMART模块在时空特征学习上优于3D CNN,特别是在短期时间建模上。ARTNet通过堆叠多个SMART块,以分层方式捕捉视频的多尺度外观和关系信息。
摘要由CSDN通过智能技术生成
 arxiv: https://arxiv.org/abs/1711.09125
 github: https://github.com/wanglimin/ARTNet

本文提出一种新的架构,学习视频时空特征,称为外观和关系网络(Appearance and Relation—ARTNet),以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块,称为SMART,来构建的,其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支和用于时间建模的关系分支外观分支是基于每帧中像素或滤波器响应的线性组合来实现的,而关系分支是基于多帧中像素或滤波器响应之间的惩罚交互来设计的。作者在Kinetics、UCF101和HMDB51数据集上进行了实验,证明了SMART块在时空特征学习方面比3D卷积有明显的改进。作者认为两个视觉线索对视频分类很重要:1.每帧中的静态外观;2.多帧之间的时间关系。

具体地,外观分支用标准2D卷积实现,关系分支用方形池结构实现。来自两个分支的响应被进一步串联并简化为更紧凑的表示。
作者提出了一个外观和关系网络(ARTNet)通过堆叠一组智能块。从本质上讲,视频域中的外观信息和关系信息呈现出多尺度的时空结构。ARTNet能够以分层的方式捕捉这种视觉结构,早期层的智能单元侧重于在短期内描述局部结构,而后期层的智能单元可以捕捉到越来越粗

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值