[论文阅读]Comparing Rewinding and Fine-tuning In Neural Network Pruning

最新推荐文章于 2023-04-11 23:26:29 发布

XMU_MIAO

最新推荐文章于 2023-04-11 23:26:29 发布

阅读量1.1k

点赞数 2

分类专栏：论文阅读文章标签：网络机器学习算法人工智能深度学习

本文链接：https://blog.csdn.net/ZY_miao/article/details/109963452

版权

文章对比了神经网络剪枝中fine-tuning、weight rewinding和learning rate rewinding三种重训练技术。研究发现，rewinding技术在精度和效率上通常优于fine-tuning，尤其是learning rate rewinding在多数情况下表现最佳。

摘要由CSDN通过智能技术生成

文章目录

前言
摘要
一、Introduction
二、Methodology
- 2.1 Retrain technology
- 2.2Metrics
三、Results
- 3.1 Accuracy Versus Parameter-Efficiency Tradeoff
- 3.2 Accuracy Versus Search Cost Tradeoff
总结

前言

论文名：Comparing Rewinding and Fine-tuning In Neural Network Pruning
论文作者：Alex Renda et.al.
期刊/会议名：ICLR 2020
本文作者：XMU_MIAO
日期：2020/11/22

摘要

许多神经网络剪枝算法分三个步骤进行：1）训练一个完整的网络，2）从网络中移出不想要的结构以压缩网络，3）重训练剩余部分恢复精度。标准的再训练技术 $fine{-}tuning$ 使用一个固定的较小的学习率从最后训练值（网络初始化训练结束得到的网络权重）来训练未剪枝的权重。
在这篇文章中，对比了 $fine{-}tuning$ 与其他重训练技术。 $Weight\,\,rewinding$ 回退未剪枝权重为网络训练早期的值并从使用原网络的从回退点开始对应的训练策略（学习率调整策略）。 $Learning\,\,rate\,\,rewinding$ （本文提出的）从最后训练值来训练未剪枝的权重，训练策略则与 $Weight\,\,rewinding$ 一样。两种 $r e w i n d i n g$ 技术都优于 $fine{-}tuning$ ，形成了一种与网络无关的剪枝算法的基础，该算法与几种更特定于网络的最新技术的精度和压缩比相匹配（相似）。

一、Introduction

剪枝是一类用于从网络中删除 $w e i g h t s$ 、 $f i l t e r s$ 、 $n e u r o n s$ 或其它结构的技术。剪枝能够压缩各种任务的标准网络，包括CV和NLP，同时保持原始网络的准确性。
在文献中确定了两类剪枝技术：第一类，在整个标准训练过程中对网络进行修剪，在训练结束时产生一个修剪后的网络；另外一类，在标准训练之后再进行剪枝。 特别的是，标准训练之后对网络进行剪枝会造成精度下降，因此，标准做法是对剪枝后的网络进行再训练以恢复精度。剪枝和再训练可以迭代进行，直到达到目标稀疏度或精度阈值。这样做通常比一次性 $one{-}shot)$ 剪枝获得更高的精度。基于再训练的剪枝算法的单一迭代过程如下所示：
（1）训练一个完整的网络
（2）根据一些启发式方法修剪网络结构
（3）重训练网络 $t$ 个 $e p o c h s$ 以恢复剪枝带来的精度损失

二、Methodology

2.1 Retrain technology

本文对比了三种重训练技术， $fine{-}tuning$ 、 $Weight\,\,Rewinding$ 以及 $Learning\,\,Rate\,\,Rewinding$ ，以下用简单的示意图来表示三种技术：
在这里插入图片描述

$\textbf{Fine{-}tuning}$
在初始化训练 $T$ 个 $e p o c h s$ 后，直接对网络进行剪枝，并对未剪枝的参数进行重训练 $t$ 个 $e p o c h s$ ，即未剪枝的参数设置为初始化训练结束后原始网络中对应的值，并迭代剪枝和重训练两个步骤直至达到预期的稀疏度或精度阈值，其学习率固定为初始化训练 $T$ 个 $e p o$