NeurIPS 2022 | 基于激活值稀疏化的内存高效迁移学习

最新推荐文章于 2024-07-20 00:57:16 发布

PaperWeekly

最新推荐文章于 2024-07-20 00:57:16 发布

阅读量274

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/129019503

版权

论文提出Back Razor算法，通过非对称剪枝策略在后向传播中使用稀疏激活层权重，降低内存消耗。在90%稀疏度下，该方法在卷积神经网络和Transformer模型上实现了高精度和显著的内存节省，尤其在VIT模型上，相比全微调策略节省了3.9倍内存。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | GlobalTrack

论文标题：

Back Razor: Memory-Efficient Transfer Learning by Self-Sparsified Backpropagation

论文链接：

https://openreview.net/pdf?id=mTXQIpXPDbh

源码链接：

https://github.com/VITA-Group/BackRazor_Neurips22

简介

从大的数据集到下游任务的迁移学习广泛使用。训练得到的模型作为预训练模型可以提升模型泛化能力。

有时需要在边缘端微调云端训练得到的大模型。一个主要的挑战是边缘端的内存约束。ResNet50 模型以 batchsize16 的设定很容易超过机载设备的内存限制。新出现的 VIT 模型会达赖更大的内存消耗。近期的研究指出在后向传播过程中存储的激活值占据了训练过程中内存消耗的很大一部分。

一些已有的解决方法：参数高效训练算法 Bitfit 不能通过压缩激活值满足内存限制。梯度检查点（Gradient Checkpointing）只需要存储激活值的子集，但是由于需要重新计算丢弃的激活值，后向传播过程中需要更多的 FLOPs。

本文给出了一种一般的激活层压缩算法 Back Razor。受到激活值存储只用于后向传播的启发，本文提出了非对称剪枝策略，即旨在后向传播过程中使用稀疏的激活层权重。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2022 | 基于激活值稀疏化的内存高效迁移学习

©PaperWeekly 原创 ·作者 |GlobalTrack论文标题：Back Razor: Memory-Efficient Transfer Learning by Self-Sparsified Backpropagation论文链接：https://openreview.net/pdf?id=mTXQIpXPDbh源码链接：https://github.com/VITA-Group...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。