卷积后的特征有负数吗?_基于分组时空卷积的高效行为识别

Paper Reading Note:Grouped Spatial-Temporal Aggregation for Efficient Action Recognition

URL: https://arxiv.org/abs/1909.13130

TL;DR

本文的idea来自分组卷积和3D卷积拆分,分两路不对称卷积分别关注静态和动态信息,最后还针对不同数据及定量地分析了网络不同层所学时空特征的贡献。


Dataset/Algorithm/Model/Experiment Detail

Dataset

作者在文章的一开头便分析了UCF101、Kinetics等传统数据集存在局限,有很强的静态表示偏差(个人理解为物体)而对时间顺序关注较少,这样的偏差会扰乱研究者更好地设计模型,因为无法判断学习到的是动作本身还是简单地利用了偏差,而Sth-Sth、Diving48、Egocentric Video Datasets(新数据集)为作者实验所用数据集

Algorithm&Model

3429d705e6457c969d1046f4ee62b397.png


作者的idea如上,将原本的卷积拆分两路,一路关注空间特征,一路关注时间特征,(a)为C3D-Equivalent结构,(b)为GST-Large结构,©为GST结构,为了减少参数量还引入了两个参数α、β,其中α表示输出特征数量中时间特征所占的比例,而β表示两路分支接收的输入特征比例,(b)为1,©为1/2
最终参数量比较如下

dd02693107f9cb41ff73a695f3e45936.png

Experiment Detail

实验推断与别的方法有所不同

9d771f9f6c7f4205a965da6b8927a4a6.png


从实验得到1/4的GST效果在acc和FLOPs上很好权衡,也是后面实验的默认配置

03fe7a63d371724a78d7b59ad5dac577.png


在几个数据集上的结果都不错,但个人觉得比较方法太少,且部分利用光流结果SOTA的方法也没放上来,实验结果不够有力

4de365df05afe5e3878fc5378cc333ec.png

f08f5a4ce4121de2c23ce278e8225ca0.png


下图显示了不同数据集的时空特征贡献,可以看到Kinetics数据集的高层特征二者差不多,而其他数据集上的低层特征空间信息更多 ,而高层特征时间信息更多,这也符合了S3D中提到的先2D后3D的结构

2be2e8354ae4775d38cd3bec64a37080.png


下图显示了随输入帧网络预测的结果变化

4665f0fd8f12b1a21ec921ff61c5e9ff.png

Thoughts

两路分支进行时间和空间信息的获取,这一方法很普遍,本文比较创新的一点是引入了α超参控制比率,但个人觉得方法并不太work,分组卷积也只是简单的均分,或者能进一步控制两路分支的比率,异或在分支中引入DWConv等卷积,最后的实验比较方法也不够,但最后针对“网络学习了什么的研究”值得借鉴

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值