AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

别码了W哥

已于 2023-07-11 22:45:06 修改

阅读量1k

点赞数 2

文章标签：笔记深度学习人工智能计算机视觉 python

于 2023-07-11 22:42:55 首次发布

本文链接：https://blog.csdn.net/Leon_____/article/details/131670716

版权

文章提出了一种名为AIM的新方法，通过在预训练的图像模型中插入轻量级Adapter进行微调，以适应视频任务，减少了计算成本和内存占用。在视频动作识别任务上，AIM展示了优秀的性能，即使只微调少量参数，也能达到高精度，且具有良好的泛化能力。与现有的参数效率转移学习方法对比，AIM在跨域适应上表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0 Abstract

主流的视觉Transformer模型遵循这样的范式： “image pre-training then finetuning”，但带来了问题：
- Full finetuning会造成大量的计算成本，同时也是不必要的
文章工作：在训练时，冻结pre-train image model参数，在模型中插入轻量化的Adapter进行微调；
成果：微调更少的参数，在video任务中实现抗衡甚至更好的表现，并且具有泛化潜能。

1 Introduction

在主流范式中，通过pre-train image model拓展到video任务的方法主要有：
- Image model + temporal module：TSM
- 扩展Image model为Video model：Swin transformer
这些方法两点的不足：
- 微调所有的参数需要巨大的计算成本以及内存占用；
- 目前仍不清楚是否有必要微调image model的所有参数，以及不充分的微调可能会损坏其泛化能力。
借鉴于parameter-efficient transfer learning（有效参数迁移学习），文章提出了AIM模型用于解决video action recognition任务，并且取得了不错的成绩：
- 在Swin-B backbone，减少了50%的内存占用以及42%的训练时间；
- 在4个video action recognition benchmarks实现了高精度，如只微调38M的参数实现K400上87.5%的精度。

2 Relate Work

Image pre-trained models：ViT及其变种、自监督模型、多模态模型；
Video action recognition：Transformer-based model + 时序模块/扩展，多模态模型（对CLIP的拓展）；
Parameter-efficient finetuning：首先在NLP领域引入，后引入到了CV，但本文的AIM与他们有几个不同：
- 现有方法基本是same domain（e.g., image-to-image or video-to-video），AIM是cross domain；
- Frozen CLIP（ECCV 2023）在 image model增加包含3D卷积以及帧间attention的decoder分支，而AIM则对encoder进行了复用，需要微调的参数更小，并且具有更好的泛化能力。

3 Methodology

[图片]

Adapter：一个bottleneck结构，通过FC层进行特征降维再升维度，中间辅佐以GELU激活函数；
ViT Block

[图片]

Spatial Adaptation
- 实验发现，增加Spatial Adapter可以增强模型对video data的空间表征能力；
Temporal Adaptation
- 为了减少参数量，对ViT Block进行了复用（share weights），但是分别使用不共享参数的Adapter；
- 在复用的时候，需要进行维度转换（从patch间的self-attention转为temporal frame间的self-attention）：
↓
- 复用模块之后再加上Adapter（没有残差），主要原因是希望其初始化为接近原始模型，需要将Adapter初始化为零，并删除这残差，以在训练开始时分离Temporal Adaptation的影响（观点来自于论文：Parameter-Efficient Transfer Learning for NLP）。
Joint Adaptation
- 在模型最后的MLP层并行加入Adapter，从而对学习的特征进行进一步的整合：

4 Experiments

[图片]

backbone：ViT-B/16 dataset：IN-21K
Spatial adaptation增强了模型的表征能力（15.1%->36.7%），同时相比full fine-tuning降低了微调参数量；
Temporal adaptation的加入让模型蓬荜生辉，并且微调参数量始终很小（14.3M）；
更换backbone为pre-train CLIP实现了66.4%的识别精度，证明了良好的泛化能力。

[图片]

在不同的pre-train model下，AIM都能保证在低微调参数的情况下实现媲美甚至更高的精度表现；
在数据有效性方面，AIM相比TimeSformer，当数据量越少时更加具有优势；
在Adapter的添加位置上，输入层的表现糟糕，原因主要是因为浅层学习不需要太多适应的通用表示，而更深的层学习特定于任务的特征，如时间信息，因此特征适应是重要的；
bottleneck的缩放比例在0.125时表现最好；
在training cost方面，AIM的表现具有优势。