[论文阅读]Parameter Efficient Training of Deep CNN by Dynamic Sparse Reparameterization

最新推荐文章于 2022-11-27 14:26:47 发布

XMU_MIAO

最新推荐文章于 2022-11-27 14:26:47 发布

阅读量592

点赞数

分类专栏：论文阅读文章标签：自然语言处理深度学习神经网络算法

本文链接：https://blog.csdn.net/ZY_miao/article/details/110541286

版权

文章目录前言摘要一、Introduction二、Experiments三、Results三、Conclusion总结前言论文名：Cross-Channel Intragroup Sparsity Neural Network论文作者：Zilin Yu et.al.机构： Peiking University Hangzhou Dianzi University Cerebras Systems 期刊/会议名：Arxiv 2019本文作者：XMU_MIAO日期：2020/12/3摘

摘要由CSDN通过智能技术生成

前言

论文名：
   Parameter Efficient Training of Deep Convolutional Neural Networks by Dynamic Sparse Reparameterization
论文作者：
	Hesham Mostafa  et.al.
机构：
	Intel Corporation（英特尔公司）
	Cerebras Systems（初创芯片公司）
期刊/会议名：ICML 2019
本文作者：XMU_MIAO
日期：2020/12/18

摘要

现代深度神经网络通常是高度参数化的。剪枝技术能够删除相当一部分网络参数而几乎不造成精度损失。近来，出现了基于非零参数动态分配的技术，其能够直接训练一个稀疏网络而无需预先训练稠密网络。
本文我们提出一种新的动态稀疏重参数化的方法，该方法解决了先前技术的局限性，如计算成本高以及需要手动配置每一层自由参数（非零参数）的数量等。我们评估了动态重参数方法在深层卷积网络中的性能，并标明我们的方法优于之前的静态和动态的重参数方法，在固定的参数预算下产生了最佳的精度。与通过迭代修剪预训练的稠密模型获得的精度相当。
我们进一步研究了产生的稀疏网络的优异泛化能力背后的机制。我们发现无论是结构还是非零参数的初始化都不足以说明该优异的性能，相反，有效的学习需要靠训练过程中对稀疏网络结构的不断探索。我们的工作表明探索训练过程中的结构自由度比向网络添加额外的参数更加有效。

一、Introduction

通过压缩产生的网络的精度与原网络相当，这不禁让人怀疑过参数化是否真的是必须的？或许存在代替训练或重参数化的方法来直接发现和训练紧凑网络（压缩后的网络）。
本文针对深度残差CNNs研究了多种静态和动态的重参数化技术。受以往技术的启发，本文设计了一种新的动态重参数化方法，该方法啊在训练深度残差CNNs时获得了最高的参数效率，优于现有的静态和动态重参数方法。
本文的方法在训练过程中会动态地改变网络的稀疏结构。它优越的性能表明，在有限存储和计算预算下训练一个CNN，分配部分资源来描述和演化网络的结构比完全花在一个稠密网络参数上更好。并且动态稀疏重参数化方法的成功不仅仅是因为最终的稀疏结构，也不是因为最终的稀疏结构与初始值的结合。训练时的网络结构的探索对于最优的泛化性能是必要的，即使一个高性能网络的结构和其初始值是已知的。结构探索提高了神经网络的可训练性。

二、Methods

稀疏网络参数化为 $f_{\psi}(x;\phi)$ ，其中 $\phi$ 表示非零权重值， $\psi$ 表示 $\phi$ 在原网络中的位置。

若 $\psi$ 在训练过程中固定不变，则为 $\textbf{Static Reparameterization}$
若 $\psi$ 在训练过程中适应性调整，则为 $\textbf{Dynamic Reparameterization}$

本部分介绍本文的动态重参数方法。首先，所有的权重张量都以相同稀疏率（相同的零元素个数）进行初始化。在训练过程中，每几百次训练迭代，非零参数会在张量之内和之间移动，这个过程遵循中的两阶段过程：基于幅度的修剪（Magnitude-based Pruning），而后进行随机增长（Random Growth，动态调整非零参数分布情况）。在整个训练过程中，网络中始终保持网络的非零参数数量固定。

在训练期间主要重复以下两个步骤进行动态重参数化：
（1）训练当前模型P个batch，得到模型参数 $\{(\phi^{t}_l,\psi^{t}_l)\}$

最低0.47元/天解锁文章

XMU_MIAO

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]Parameter Efficient Training of Deep CNN by Dynamic Sparse Reparameterization

文章目录前言摘要一、Introduction二、Experiments三、Results三、Conclusion总结前言论文名：Cross-Channel Intragroup Sparsity Neural Network论文作者：Zilin Yu et.al.机构： Peiking University Hangzhou Dianzi University Cerebras Systems 期刊/会议名：Arxiv 2019本文作者：XMU_MIAO日期：2020/12/3摘
复制链接

扫一扫