2017-Appearance-and-Relation Networks for Video Classification视频分类中的外观与关系网络

最新推荐文章于 2021-09-26 01:36:14 发布

半分热度

最新推荐文章于 2021-09-26 01:36:14 发布

阅读量248

点赞数

分类专栏：视频分类文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_41956697/article/details/115177189

版权

本文介绍了一种新的视频分类架构——ARTNet，它通过SMART模块学习时空特征，包含外观分支和关系分支，以独立和明确的方式捕获外观和关系。实验表明，SMART模块在时空特征学习上优于3D CNN，特别是在短期时间建模上。ARTNet通过堆叠多个SMART块，以分层方式捕捉视频的多尺度外观和关系信息。

摘要由CSDN通过智能技术生成

 arxiv: https://arxiv.org/abs/1711.09125
 github: https://github.com/wanglimin/ARTNet

本文提出一种新的架构，学习视频时空特征，称为外观和关系网络（Appearance and Relation—ARTNet），以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块，称为SMART，来构建的，其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支和用于时间建模的关系分支。外观分支是基于每帧中像素或滤波器响应的线性组合来实现的，而关系分支是基于多帧中像素或滤波器响应之间的惩罚交互来设计的。作者在Kinetics、UCF101和HMDB51数据集上进行了实验，证明了SMART块在时空特征学习方面比3D卷积有明显的改进。作者认为两个视觉线索对视频分类很重要：1.每帧中的静态外观；2.多帧之间的时间关系。

具体地，外观分支用标准2D卷积实现，关系分支用方形池结构实现。来自两个分支的响应被进一步串联并简化为更紧凑的表示。
作者提出了一个外观和关系网络（ARTNet）通过堆叠一组智能块。从本质上讲，视频域中的外观信息和关系信息呈现出多尺度的时空结构。ARTNet能够以分层的方式捕捉这种视觉结构，早期层的智能单元侧重于在短期内描述局部结构，而后期层的智能单元可以捕捉到越来越粗

最低0.47元/天解锁文章

半分热度

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2017-Appearance-and-Relation Networks for Video Classification视频分类中的外观与关系网络

arxiv: https://arxiv.org/abs/1711.09125 github: https://github.com/wanglimin/ARTNet本文提出一种新的架构，学习视频时空特征，称为外观和关系网络（Appearance and Relation—ARTNet），以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块，称为SMART，来构建的，其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支.
复制链接

扫一扫

专栏目录