NeurIPS 2022 | 基于激活值稀疏化的内存高效迁移学习

论文提出Back Razor算法,通过非对称剪枝策略在后向传播中使用稀疏激活层权重,降低内存消耗。在90%稀疏度下,该方法在卷积神经网络和Transformer模型上实现了高精度和显著的内存节省,尤其在VIT模型上,相比全微调策略节省了3.9倍内存。
摘要由CSDN通过智能技术生成

f1ea568c696c30d35e6fdeec36fd8bbf.gif

©PaperWeekly 原创 · 作者 | GlobalTrack

9f1d454f82f2bed3c2f888e0282b3358.png

论文标题:

Back Razor: Memory-Efficient Transfer Learning by Self-Sparsified Backpropagation

论文链接:

https://openreview.net/pdf?id=mTXQIpXPDbh

源码链接:

https://github.com/VITA-Group/BackRazor_Neurips22

eb65c37a26a7c8fabceee7bde703d75c.png

简介

从大的数据集到下游任务的迁移学习广泛使用。训练得到的模型作为预训练模型可以提升模型泛化能力。

有时需要在边缘端微调云端训练得到的大模型。一个主要的挑战是边缘端的内存约束。ResNet50 模型以 batchsize16 的设定很容易超过机载设备的内存限制。新出现的 VIT 模型会达赖更大的内存消耗。近期的研究指出在后向传播过程中存储的激活值占据了训练过程中内存消耗的很大一部分。

一些已有的解决方法:参数高效训练算法 Bitfit 不能通过压缩激活值满足内存限制。梯度检查点(Gradient Checkpointing)只需要存储激活值的子集,但是由于需要重新计算丢弃的激活值,后向传播过程中需要更多的 FLOPs。

本文给出了一种一般的激活层压缩算法 Back Razor。受到激活值存储只用于后向传播的启发,本文提出了非对称剪枝策略,即旨在后向传播过程中使用稀疏的激活层权重。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值