【PaperNotes】视频分类【一】

本文介绍了两种视频分类技术:Appearance-and-Relation Networks(ARTNet)和Hybrid Deep Learning Framework。ARTNet采用SMART blocks分离并明确地学习时空特征,优于3D卷积;而Hybrid框架结合CNN和LSTM,分别提取静态信息、短期运动和长期时间线索。实验表明,两者在Kinetics、UCF101和HMDB51数据集上表现出色。
摘要由CSDN通过智能技术生成
Appearance-and-Relation Networks for Video Classification
简介
  • 提出ARTNet,学习端到端的视频表征
  • ARTNets是由多个SMART blocks堆叠而来的,SMART可用于同时从RGB输入中建模出appearance与relation
  • SMART将spatiotemporal学习分为两部分:用于空间建模的appearance分支与用于时间建模的relation分支
  • appearance分支:每帧的像素或是过滤器responses的线性结合
  • relation分支:跨多帧的像素与filter responses之间的multiplicative interactions
  • 文中实验数据集:Kinetics, UCF101, HMDB51,证明了SMART blocks在时空域特征学习中表现优于3D卷积,且ARTNet SOTA
网络结构

Video architecture comparison
图a是一个two-stream CNNs,图b是3D CNNs:
在这里插入图片描述
图c就是本文提出的基于SMART building block的ARTNet的结构:
在这里插入图片描述
可以看到,two-stream CNNs有两个输入分别是RGB frame与optical flow,3D CNNs则是通过单个3D卷积联合且implicitly来建模的。ARTNet采取一种appearance与relation的分支方式,来分开的显示的同时建模。

SMART blocks

  • (a)中的3D卷积学习时空域特征jointly and implicitly
  • (b)中的square-pooling层结构是本文首次提出的,用于学习独立于appearance外的帧间关系学习
  • ©进而构造出了SMART block来学习时空域特征separately and explicitly,下半部分是使用了2D卷积的appearance分支,用于捕捉静态结构,上半部
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值