论文阅读：AdaFuse: Adaptive Temporal Fusion Network for Efficient Action Recognition - ICLR2021

最新推荐文章于 2025-05-12 11:39:07 发布

一杯咖啡Miracle

最新推荐文章于 2025-05-12 11:39:07 发布

阅读量4.7k

点赞数

分类专栏：视频分类深度学习计算机视觉文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42493281/article/details/123504802

版权

深度学习同时被 3 个专栏收录

2 篇文章

订阅专栏

计算机视觉

2 篇文章

订阅专栏

1 篇文章

订阅专栏

文章提出了一种称为 AdaFuse 的自适应时间融合网络，它动态地融合来自当前和过去特征图的通道，以进行强大的时间建模。该方法在必要时重用历史特征（即，动态决定每个层和每个实例保留、重用或跳过哪些通道），目的是提高识别率和效率。该方法可以作为插件操作用于各种基于 2D CNN 的动作识别架构。

该方法的概念图如下：

对于历史特征图和当前特征图，先通过全局平均池化得到特征向量，然后将特征向量输入预测网络，预测网络输出结果pt取值如下：pt=0代表将特征图保留（即进行正常卷积操作）；pt=1代表重用历史特征图的第i个通道；pt=2代表丢弃当前特征图，用0填充。

该方法在多个数据集上取得了显著效果：

与其他先进方法的比较如下：

和其他方法在计算量、参数量与准确率的综合对比分析如下：

针对Something-V2数据集上重用、保留、丢弃的特征图数量统计如下（网络架构为ResNet50）：

观察统计结果发现，较早的层倾向于跳过更多并减少重用/保留，反之亦然。前几个卷积块通常捕获大空间尺寸的低级特征图，因此通道维度上的“信息密度”应该更小，从而导致跨通道的冗余更多。后面的块通常捕获高级语义，并且特征图的空间维度更小，因此“语义密度”可能更高，跳过的通道更少。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。