AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

0 Abstract

  • 主流的视觉Transformer模型遵循这样的范式: “image pre-training then finetuning”,但带来了问题:
    • Full finetuning会造成大量的计算成本,同时也是不必要的
  • 文章工作:在训练时,冻结pre-train image model参数,在模型中插入轻量化的Adapter进行微调;
  • 成果:微调更少的参数,在video任务中实现抗衡甚至更好的表现,并且具有泛化潜能。

1 Introduction

  • 在主流范式中,通过pre-train image model拓展到video任务的方法主要有:

    • Image model + temporal module:TSM
    • 扩展Image model为Video model:Swin transformer
  • 这些方法两点的不足:

    • 微调所有的参数需要巨大的计算成本以及内存占用;
    • 目前仍不清楚是否有必要微调image model的所有参数,以及不充分的微调可能会损坏其泛化能力。
      [图片]
  • 借鉴于parameter-efficient transfer learning(有效参数迁移学习),文章提出了AIM模型用于解决video action recognition任务,并且取得了不错的成绩:

    • 在Swin-B backbone,减少了50%的内存占用以及42%的训练时间;
    • 在4个video action recognition benchmarks实现了高精度,如只微调38M的参数实现K400上87.5%的精度。

2 Relate Work

  • Image pre-trained models:ViT及其变种、自监督模型、多模态模型;
  • Video action recognition:Transformer-based model + 时序模块/扩展,多模态模型(对CLIP的拓展);
  • Parameter-efficient finetuning:首先在NLP领域引入,后引入到了CV,但本文的AIM与他们有几个不同:
    • 现有方法基本是same domain(e.g., image-to-image or video-to-video),AIM是cross domain;
    • Frozen CLIP(ECCV 2023)在 image model增加包含3D卷积以及帧间attention的decoder分支,而AIM则对encoder进行了复用,需要微调的参数更小,并且具有更好的泛化能力。

3 Methodology

[图片]

  • Adapter:一个bottleneck结构,通过FC层进行特征降维再升维度,中间辅佐以GELU激活函数;
  • ViT Block
    [图片]

[图片]

  • Spatial Adaptation

    • 实验发现,增加Spatial Adapter可以增强模型对video data的空间表征能力;
  • Temporal Adaptation

    • 为了减少参数量,对ViT Block进行了复用(share weights),但是分别使用不共享参数的Adapter;
    • 在复用的时候,需要进行维度转换(从patch间的self-attention转为temporal frame间的self-attention):
      [图片]


    [图片]

    • 复用模块之后再加上Adapter(没有残差),主要原因是希望其初始化为接近原始模型,需要将Adapter初始化为零,并删除这残差,以在训练开始时分离Temporal Adaptation的影响(观点来自于论文:Parameter-Efficient Transfer Learning for NLP)。
  • Joint Adaptation

    • 在模型最后的MLP层并行加入Adapter,从而对学习的特征进行进一步的整合:
      [图片]

4 Experiments

[图片]

  • backbone:ViT-B/16 dataset:IN-21K
  • Spatial adaptation增强了模型的表征能力(15.1%->36.7%),同时相比full fine-tuning降低了微调参数量;
  • Temporal adaptation的加入让模型蓬荜生辉,并且微调参数量始终很小(14.3M);
  • 更换backbone为pre-train CLIP实现了66.4%的识别精度,证明了良好的泛化能力。
    [图片]

[图片]

  • 在不同的pre-train model下,AIM都能保证在低微调参数的情况下实现媲美甚至更高的精度表现;
    [图片]

  • 在数据有效性方面,AIM相比TimeSformer,当数据量越少时更加具有优势;
    [图片]

  • 在Adapter的添加位置上,输入层的表现糟糕,原因主要是因为浅层学习不需要太多适应的通用表示,而更深的层学习特定于任务的特征,如时间信息,因此特征适应是重要的;
    [图片]

  • bottleneck的缩放比例在0.125时表现最好;
    [图片]

  • 在training cost方面,AIM的表现具有优势。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值