On the Number of Linear Regions of Deep Neural Networks

最新推荐文章于 2021-01-31 15:58:15 发布

sam-X

最新推荐文章于 2021-01-31 15:58:15 发布

阅读量1.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u010945683/article/details/80228534

版权

深度学习专栏收录该内容

14 篇文章

订阅专栏

文献来源：Montufar G F, Pascanu R, Cho K, et al. On the number of linear regions of deep neural networks[C]//Advances in neural information processing systems. 2014: 2924-2932.

https://papers.nips.cc/paper/5422-on-the-number-of-linear-regions-of-deep-neural-networks.pdf

思想

文章的主要思想是深层神经网络较浅层神经网络能够将输入空间折叠得更多（指数级差别），也就是能够通过叠加多层的修正函数神经元可以得到更多的灵活性（在下图中，较深的神经单元因为有更多零碎的“线性子空间”，从而对于最优决策边界能够更好地拟合）.同时对于典型的深度前向神经网络能够切分得到的linear region的数量给出了上下界.

Pascanu et al.(2013)理论分析了关于带有修正神经元的深度前向神经网络中函数的复杂度，确定了深度神经网络比浅层神经网络能够将输入空间进行更多(指数级)的折叠（使用相同数量的神经元）.这篇文章就是在这个基础上继续深挖.

分析

关键：深度模型的每一层能够映射不同区域的输入到同一个输出中（折叠）.

文章中讨论的是普通的深层前向神经网络，其中激活函数主要是

修正单元（Rectifier unit）

g i (f i) = max {0, f i}

$g_i(f_i)=\max\lbrace 0,f_{i} \rbrace$

最大输出单元（Maxout unit）

g i (f i) = max {f i, 1, . . ., f i, k}

$g_i(f_i)=\max \lbrace f_{i,1},...,f_{i,k} \rbrace$

上面提到的两种激活函数的非线性特性可以被看作是超平面提供，然后多个超平面进行叠加就形成了a hyperplane arrangement，超平面的叠加就将输入平面分割层了多个区域.以数学语言描述就是，一个由超平面叠加得到的区域是补集 $\mathbb{R}^{n_0}\setminus (\cup_iH_i)$ 的连通子集，其中 $H_i$ 表示各个超平面， $n_0$ 表示输入数据维数.在 $n_1$ 个超平面(隐含神经元)在 $\mathbb{R}^{n_0}$ 的叠加可以最多得到 $\sum_{j=0}^{n_0}\binom{n_1}{j}$ 个区域.（数学证明可以查看Pascanu et al.(2013)）