(14)[ICLR16] Network Morphism

最新推荐文章于 2023-03-28 21:36:14 发布

置顶 gdtop818

最新推荐文章于 2023-03-28 21:36:14 发布

阅读量2.7k

点赞数 2

分类专栏：深度学习论文系列博客 paper_deep_learning

本文链接：https://blog.csdn.net/weixin_37993251/article/details/88351850

版权

深度学习论文系列博客同时被 2 个专栏收录

53 篇文章 28 订阅

订阅专栏

paper_deep_learning

42 篇文章 9 订阅

订阅专栏

计划完成深度学习入门的126篇论文第十四篇，Buffalo大学和MSRA合作研究一个新型的网络，能从父网络中继承知识并且短时间训练成一个更强的网络，称为network morphism。

ABSTRACT&INTRODUCTION

摘要

本文系统地研究了如何将训练有素的神经网络改造成新的神经网络，使其网络功能得到充分的保留。在本研究中，我们将其定义为network morphism。在形成了一个父网络之后，子网络被期望从父网络中继承知识，并且有潜力在更短的训练时间内继续成长为一个更强大的网络。对这种network morphism的第一个要求是它能够处理各种morphng的网络，包括深度、宽度、内核大小甚至子网的变化。为了满足这一要求，我们首先引入了network morphism equations，然后针对经典神经网络和卷积神经网络的所有这些morphism类型开发了新的morphism算法。这种network morphism的第二个要求是它处理网络非线性的能力。我们提出了一组参数激活函数来促进任何连续非线性激活神经元的变形。在基准数据集和典型神经网络上的实验结果表明了所提出的network morphism方案的有效性。

介绍

深度卷积神经网络(DCNNs)在图像分类等多种计算机视觉任务上取得了最先进的成果(Krizhevsky et al.， 2012; Simonyan, Zisserman, 2014; Szegedy，2014)，目标检测(Girshick, 2014; Girshick, 2015; Ren, 2015)和语义分割(Long et al.， 2014)。然而，培训这样一个网络是非常耗时的。训练一个有效的深度网络通常需要几周甚至几个月的时间，更不用说探索不同的网络设置了。我们非常希望这些训练有素的网络能够直接用于其他相关的应用程序，而只需要最少的再培训。

为了实现这一理想目标，我们需要系统地研究如何将一个训练有素的神经网络改造成一个网络功能完整的神经网络。我们称这种操作为network morphism。当这种morphism完成后，子网络不仅要继承父网络的全部知识，而且随着过程的继续，还能在更短的训练时间内成长为更强大的网络。这与现有的网络知识转移相关工作有根本不同，现有工作要么试图模仿父网络的输出(Bucilu et al.，2006;Ba & Caruana, 2014;或进行预训练，以促进收敛和/或适应网络功能可能发生全面变化的新数据集(Simonyan & Zisserman，2014; Oquab，2014)。

从数学上讲，morphism是一个保持结构的映射，从一个数学结构到另一个(Weisstein, 2002)。在神经网络中，network morphism是指从父网络到子网络的参数传递映射，它保留了子网络的功能和输出。虽然network morphism一般不限制子网络的结构，但我们将network morphism的研究限制在扩展模式上，这直观地意味着子网络比父网络更深更广。图1展示了network morphism的概念，其中展示了多种morphism类型，包括depth morphing, width morphing, kernel size morphing, and subnet morphing。在这项工作中，我们推导了一个成功的morphism操作遵循的network morphism方程，在此基础上可以为所有这些morphism类型开发新的network morphism算法。该算法适用于经典的多层感知器模型和卷积神经网络。由于所提出的network morphism要求输出不变，因此复杂的morphism可以分解为基本的morphism步骤，从而易于求解。

深度morphism是一种重要的morphism类型，目前顶尖的神经网络正变得越来越深(Krizhevsky et al.， 2012; Simonyan, Zisserman, 2014; Szegedy，2014; He，2015a)。一种启发式方法是将身份映射层嵌入到父网络中，称为IdMorph。IdMorph是最近的一项研究(Chen et al.， 2015)，但由于识别层的稀疏性，IdMorph存在潜在的问题，有时可能会失败(He et al.， 2015a)。为了克服与IdMorph相关的问题，我们引入了一些morphism操作的实践，并提出了一种基于反卷积的网络深度morphism算法。该算法能够用非零元素渐近地填充所有参数。在最坏的情况下，该算法的非零占位率仍然比IdMorph高一个数量级。

提出的network morphism的另一个挑战是处理神经网络中的非线性问题。在这种情况下，即使简单的IdMorph方法也会失败，因为它只对幂等函数有效。在这项工作中，要针对非线性问题，引入参数激活函数族的概念，将其定义为任意非线性激活函数的伴随函数族。它可以将非线性操作简化为具有可学习参数的线性操作。因此，可以求解任意连续非线性激活神经元的network morphism。据我们所知，这是除了最近的研究(Chen et al.， 2015)介绍了IdMorph之外，关于network morphism的第一部著作。我们进行了大量的实验，证明了所提出的network morphism学学习方案对经典和卷积神经网络中广泛使用的基准数据集的有效性。验证了基本morphism操作的有效性。此外，我们还证明了所提出的network morphism能够对网络进行内部正则化，这通常会提高性能。最后，我们还成功地改造了著名的16层VGG网(Simonyan; Zisserman, 2014)以一个更好的表现模型，与从零开始的训练相比，只有1/15的训练时间。

Related Work

简要介绍了近年来有关网络语素的研究工作，并指出了网络语素与网络语素的区别。

Mimic Learning.

目前，人们已经开展了一系列尝试将教师网络与学生网络相结合的工作，这些工作通常需要从零开始学习。例如，(Bucilu et al.， 2006)试图通过模仿集成网络来训练更轻的网络。(Ba,Caruana, 2014)扩展了这一概念，并使用一个较浅但较宽的网络来模拟一个深而宽的网络。在(Romero et al.， 2014)中，作者采用了一个更深更窄的网络来模拟一个更深更宽的网络。所提出的network morphism方案不同于这些算法，它的目标不是模仿，而是让子网络直接从父网络继承完整的知识(网络功能)。这使得network morphism可以达到相同的性能。这就是为什么网络被称为父母和孩子，而不是老师和学生。另一个主要的区别是，儿童网络不是从零开始学习的。

Pre-training and Transfer Learning.

Pre-training (Simonyan & Zisserman, 2014)是一种促进深层神经网络收敛和转移学习的策略(Simonyan & Zisserman, 2014;引入Oquab等人，2014)克服了在相对较小的神经网络上训练大型神经网络时的过拟合问题数据集。它们都重新初始化父网络的最后几层，而其他层保持不变(或者以更轻松的方式进行改进)。它们的不同之处在于，预训练继续在相同的数据集上训练子网络，而转移学习继续在新的数据集上进行。然而，这两种策略完全改变了最后几层的参数以及网络功能。

Net2Net.

Net2Net是最近在(Chen et al.， 2015)中提出的一项工作。虽然它的目标是相同的问题，但network morphism和Net2Net之间有几个主要的区别。首先，Net2Net的解决方案仍然局限于IdMorph方法，而NetMorph是第一个使嵌入非身份层成为可能的方法。其次，Net2Net s操作只对幂等激活函数有效，而NetMorph是第一个处理任意非线性激活函数的。第三，Net2Net的讨论仅限于宽度和深度的变化，而NetMorph研究的是多种morphism类型，包括深度、宽度、内核大小和子网的变化。第四，Net2Net需要分别考虑深度和宽度的变化，而NetMorph可以在一次操作中同时进行深度、宽度和内核大小的变化。

Network Morphism

我们将首先讨论线性情况下的深度morphism，这实际上也涉及到宽度和内核大小的morphism。然后我们将描述如何处理神经网络中的非线性。最后，我们将提供用于宽度morphism和内核大小morphism的独立版本，然后是子网morphism。

1. Network Morphism: Linear Case

让我们从一个经典神经网络的最简单的例子开始。我们首先去掉所有的非线性激活函数，考虑一个只连接完全连接层的神经网络。

如图2所示，在父网络中，通过权值矩阵G连接两个隐含层：

，是的特征维度。对于network morphism，我们将插入一个新的隐含层，使子网络满足：

显然，经典神经网络的network morphism等价于矩阵分解问题：

接下来，我们考虑一个深度卷积神经网络(DCNN)的例子。对于DCNN，构建块是卷积层，而不是完全连接的层。因此，我们将隐藏层称为blobs，将权重矩阵称为过滤器。对于二维DCNN, blobs B相对于形状的三维张量()；其中表示通道的数量、高度和宽度。过滤器G，为形状的4D张量，，是卷积核的大小。

DCNN中的卷积运算可以用多通道的方式定义：

* 是用传统方法定义的卷积运算。由此可以很容易地推导出过滤器应满足以下方程：

的一个零填充版本的有效内核大小(接受域)是，如果，则有。

在数学上，内积等价于内核大小为11的多通道卷积。因此，式(3)等价于式(5)，K = K1 = K2 = 1。因此，我们可以把它们统一成一个方程：

是一个非交流算子，它可以是一个内积，也可以是一个多通道卷积。我们将式(6)称为网络射型方程(对于线性情况下的深度)。虽然式(6)主要导出深度变形(G变形为)，但也涉及网络宽度(Cl的选择)和内核大小(K1和K2的选择)。因此，本文剩余部分将简称为网络射型方程。

网络深度变形问题的形式化表述如下：

2. Network Morphism Algorithms: Linear Case

在本节中,我们介绍两种算法求解网络射方程(6)。自从解决方程(6)可能不是独一无二的,我们都应当射操作所需的做法:1)将包含尽可能多的非零元素的参数,和2)参数需要一致的规模。这两种方法在现有的工作中被广泛采用，因为对于非凸优化问题，优先使用随机初始化而不是零填充(Bishop, 2006)，初始化的规模对于深度神经网络(Glorot &Bengio, 2010;等，2015b)。接下来，我们引入了两种基于反褶积的算法来求解network morphism equation(6)，即(1)一般网络语素，(2)实用网络语素。前者在一定条件下用非零元素填充所有参数，而后者不依赖于该条件，只能渐进地用非零元素填充所有参数。

GENERAL NETWORK MORPHISM

提出了在一定条件下求解式(6)的算法。如算法1所示，用随机噪声初始化子网络的Fl和Fl+1卷积核。然后我们通过修正另一个迭代求解Fl+1和Fl。对于每次迭代，通过反褶积求解。因此，总损失总是在减少，并有望收敛。然而，不能保证算法1中的损失总是收敛到0。我们认为，如果的参数个数不小于G~，则算法1收敛于0。权利要求1。如果满足下列条件，则损失在

算法1收敛到0(一步)：

条件(7)中的三项分别为的参数。

检验条件(7)的正确性是很容易的，因为多通道卷积可以写成两个矩阵的乘法。条件(7)声称我们有比约束更多的未知数，因此它是一个待定线性系统。由于随机矩阵很少不一致(概率为0)，所以不确定线性系统的解总是存在的。

PRACTICAL NETWORK MORPHISM

接下来，我们提出一种算法1的变体，可以求解式(6)在非稀疏的情况下带有牺牲。该算法将零收敛条件简化为的参数个数不小于，而不是。由于我们关注network morphism在扩张模式下，我们可以假设这个条件是已经证明的，即扩展,或者扩展。因此，我们可以声称，该算法解决了network morphism equation(6)，所述算法2，的情况下扩展，从开始，我们反复调用算法1和收缩的大小直到收敛于0。此迭代将终止，因为我们能够保证，如果，则损失为0。对于展开G的另一种情况，算法是类似的。

算法2的非稀疏实践的牺牲如图3所示。

在最坏的情况下，它可能不能用非零元素填充所有参数，但仍然渐进地填充。这个图比较了IdMorph和NetMorph的非零元素职业。假设在最好的情况下(c)， NetMorph能够以的顺序以非零的形式占据所有元素。在最坏的情况下(b)它有非零元素的顺序。一般来说，网络变形介于最佳情况和最差情况之间。IdMorph (a)只有非零元素的顺序。因此，网络形态的非零占位率至少比IdMorph高一个数量级。在实践中，我们也将有，因此NetMorph可以渐进地用非零元素填充所有参数。

3. Network Morphism: Non-linear Case

在提出的网络形态学中，还需要处理神经网络中的非线性问题。一般来说，替换层和两层网络并不是一件简单的事情，表示非线性激活函数

对于一个等幂的激活功能，满足，Net2Net中的IdMorph方案(Chen et al.， 2015)是设置, ，其中I表示标识映射。然后我们有

然而，尽管IdMorph适用于ReLU激活函数，但由于不满足幂等条件，它不能应用于其他常用的激活函数，如Sigmoid和TanH。为了处理任意连续非线性激活函数，我们提出了P-activation function family的概念。一个激活函数的P-activation function family，可以定义为任何映射到线性恒等变换的连续函数族。对于，P-activation可能没有唯一的定义。我们定义了P-activation function family
的规范形式如下:

利用P-activation function family实现网络形态的思想如图4所示。

如图所示，添加绿色框所示的非线性激活是安全的，但是我们需要确保黄色框最初等同于线性激活。一旦学会了a的值，这种线性激活将成长为非线性激活。形式上，我们需要将层替换为两层。设a = 1，只要满足网络变形方程(6)，变形就会成功：

4. Stand-alone Width and Kernel Size Morphing

WIDTH MORPHING

KERNEL SIZE MORPHING

针对核尺寸变形问题，提出了一种启发式的有效解决方案。假设卷积层l的内核大小是Kl，我们想把它扩展到K~l。当第l层的过滤器两边填充个0时，同样的操作也适用于blobs。如图5所示，得到的blobs形状相同，数值也相同。

5. Subnet Morphing

现代网络正变得越来越深。手工设计几十层甚至几百层是很有挑战性的。一种优雅的策略是首先设计子网模板，然后通过这些子网构建网络。两个典型的例子是Network in Network (NiN)的mlpconv层(Lin et al.， 2013)和inception层GoogLeNet (Szegedy et al.， 2014)，如图6(a)所示。

gdtop818

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
(14)[ICLR16] Network Morphism

计划完成深度学习入门的126篇论文第十四篇，Buffalo大学和MSRA合作研究一个新型的网络，能从父网络中继承知识并且短时间训练成一个更强的网络，称为network morphism。ABSTRACT&amp;INTRODUCTION摘要本文系统地研究了如何将训练有素的神经网络改造成新的神经网络，使其网络功能得到充分的保留。在本研究中，我们将其定义为network morphism。...
复制链接

扫一扫