论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:IBM
    • 发表时间:ECCV 2020

1. 要解决什么问题

  • 行为识别相关研究主要集中在以下两个方面:
    • 为2D CNN增加额外的temporal modeling。
    • 使用3D CNN进行时空建模。
  • 一般来说,性能的提升都伴随着算力的增加。为了更加方便部署,主要的研究内容是模型压缩以及设计小模型。
  • 几乎所有模型都都使用相同尺寸的数据帧作为模型输入。
  • 其实这篇论文让我想到了 SCSampler,只不过这篇更彻底,除了会skip帧之外,还会对帧的输入resolution进行处理。

2. 用了什么方法

  • 将输入帧的resolution作为变量,通过模型进行设置。
    • 总体思想如下图所示:
    • image_1ef16b2r67etp2loltdmg124a9.png-453kB
  • 主要工作:提出AR-Net模型,本模型使用一种可微分(即可以使用梯度下降更新参数)的方法来学习输入数据的尺寸。
  • 模型总体结构如下图所示
    • 模型可以分为两个部分:
      • policy network:由 feature extractor 和 LSTM 组成,得到每帧的尺寸。
      • backbone network:不同尺寸的frame由不同的backbone来提取特征。
        • 尺寸太小的图片也不用处理了,就当skip该帧。
    • image_1ef1937mds6v1c2j1mp4u38q7q9.png-308.1kB
  • policy network 的具体实现没有细看,记录一下大概的思路
    • 设置一些不同尺寸的输入数据(应该是有一定数量的固定尺寸,目标是选择其中一个)
    • 实现网络是特征提取+LSTM,LSTM应该是1对1,每次输入特征提取的结果来更新参数。
    • 在选择结果时使用了 Gumbel Softmax,这部分应该是实现重点,没细看,等开源了可以研究下。
  • 损失函数:
    • 分类损失函数就是普通的交叉熵。
    • 由于frame尺寸不一定,所以模型的GFOPS也不一定,有一个GFLOPS相关损失函数,形式为
      • image_1ef1cci3hg7h1one1rke1mev7v119.png-11.7kB
    • 我们希望确定图像尺寸的时候,skip更多frame,所以也设置了一个相关的损失函数(没细看)
      • image_1ef1cerah59uktkusuq7bu7s1m.png-89.7kB

3. 效果如何

  • 在ActivityNet上好得很
    • image_1ef1eqs92a601251fmratkcup23.png-170.5kB
  • 在mini-kinetics-200上结果也不错
    • image_1ef1etgus1v5a10l21ucc1r4512hr2g.png-42.3kB
  • 比较了各种不同的policy
    • image_1ef1fc7gt1endq9v19jvoc51eb12t.png-106.2kB

4. 还存在什么问题&有什么可以借鉴

  • 最终的分类结果看起来还是比较普通的TSN形式,2D CNN+avg预测结果。

  • 等开源了可以考虑改成online形式用用看。

  • 训练了mini-kinetics,没有在kinetics400上尝试,感觉稍微欠一点意思。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制,可以提高模型的性能和效率。它通过对每个通道的特征图进行加权,使得网络可以更好地学习到重要的特征。ECA-Net的设计简单,易于实现,并且可以与各种深度卷积神经网络结构相结合使用。 ### 回答2: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制。 ECA-Net通过提出一种名为"Efficient Channel Attention"(ECA)的注意力机制,来增强深度卷积神经网络的性能。通道注意力是一种用于自适应调整不同通道的特征响应权重的机制,有助于网络更好地理解和利用输入数据的特征表示。 相比于以往的注意力机制,ECA-Net采用了一种高效且可扩展的方式来计算通道注意力。它不需要生成任何中间的注意力映射,而是通过利用自适应全局平均池化运算直接计算出通道注意力权重。这种方法极大地降低了计算和存储开销,使得ECA-Net在实际应用中更具实用性。 在进行通道注意力计算时,ECA-Net引入了两个重要的参数:G和K。其中,G表示每个通道注意力的计算要考虑的特征图的大小;K是用于精细控制计算量和模型性能之间平衡的超参数。 ECA-Net在各种视觉任务中的实验结果表明,在相同的模型结构和计算资源下,它能够显著提升网络的性能。ECA-Net对不同层级的特征表示都有显著的改进,能够更好地捕捉不同特征之间的关联和重要性。 总之,ECA-Net提供了一种高效并且可扩展的通道注意力机制,可以有效提升深度卷积神经网络的性能。它在计算和存储开销上的优势使得它成为一个非常有价值的工具,可在各种计算资源受限的应用中广泛应用。 ### 回答3: "eca-net: efficient channel attention for deep convolutional neural networks" 是一种用于深度卷积神经网络的高效通道注意力模块。这一模块旨在提高网络对不同通道(特征)之间的关联性的理解能力,以提升网络性能。 该方法通过引入了一个新的注意力机制来实现高效的通道注意力。传统的通道注意力机制通常是基于全局池化操作来计算通道之间的关联性,这种方法需要较高的计算成本。而ECA-Net则通过引入一个参数化的卷积核来计算通道之间的关联性,可以显著减少计算量。 具体来说,ECA-Net使用了一维自适应卷积(adaptive convolution)来计算通道注意力。自适应卷积核根据通道特征的统计信息来调整自身的权重,从而自适应地计算每个通道的注意力权重。这样就可以根据每个通道的信息贡献度来调整其权重,提高网络的泛化能力和性能。 ECA-Net在各种图像分类任务中进行了实验证明了其有效性。实验结果显示,ECA-Net在相同计算预算下,相比其他通道注意力方法,可以获得更高的分类精度。同时,ECA-Net还具有较少的额外计算成本和模型大小,使得其在实际应用中更加高效。 总结而言,"eca-net: efficient channel attention for deep convolutional neural networks" 提出了一种高效通道注意力方法,通过引入自适应卷积核来计算通道注意力,从而提高了深度卷积神经网络的性能。这一方法在实验中取得了良好的效果,并且具有较少的计算成本和模型大小。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值