On the Number of Linear Regions of Deep Neural Networks

文献来源:Montufar G F, Pascanu R, Cho K, et al. On the number of linear regions of deep neural networks[C]//Advances in neural information processing systems. 2014: 2924-2932.

https://papers.nips.cc/paper/5422-on-the-number-of-linear-regions-of-deep-neural-networks.pdf


思想

文章的主要思想是深层神经网络较浅层神经网络能够将输入空间折叠得更多(指数级差别),也就是能够通过叠加多层的修正函数神经元可以得到更多的灵活性(在下图中,较深的神经单元因为有更多零碎的“线性子空间”,从而对于最优决策边界能够更好地拟合).同时对于典型的深度前向神经网络能够切分得到的linear region的数量给出了上下界.

Pascanu et al.(2013)理论分析了关于带有修正神经元的深度前向神经网络中函数的复杂度,确定了深度神经网络比浅层神经网络能够将输入空间进行更多(指数级)的折叠(使用相同数量的神经元).这篇文章就是在这个基础上继续深挖.

分析

关键:深度模型的每一层能够映射不同区域的输入到同一个输出中(折叠).

文章中讨论的是普通的深层前向神经网络,其中激活函数主要是

  • 修正单元(Rectifier unit)

gi(fi)=max{0,fi} g i ( f i ) = max { 0 , f i }

  • 最大输出单元(Maxout unit)

gi(fi)=max{fi,1,...,fi,k} g i ( f i ) = max { f i , 1 , . . . , f i , k }

上面提到的两种激活函数的非线性特性可以被看作是超平面提供,然后多个超平面进行叠加就形成了a hyperplane arrangement,超平面的叠加就将输入平面分割层了多个区域.以数学语言描述就是,一个由超平面叠加得到的区域是补集 Rn0(iHi) R n 0 ∖ ( ∪ i H i ) 的连通子集,其中 Hi H i 表示各个超平面, n0 n 0 表示输入数据维数.在 n1 n 1 个超平面(隐含神经元)在 Rn0 R n 0 的叠加可以最多得到 n0j=0(n1j) ∑ j = 0 n 0 ( n 1 j ) 个区域.(数学证明可以查看Pascanu et al.(2013))

数据点的特性
文章的重心,通过相同的非线性函数叠加,对输入空间分割折叠这一操作在下图可以清晰看出,不同的数据点可以递归合并到最终超平面的同一点.

数据边界的特性
更进一步地,数据的特性,通过潜在的边界超平面对称性学习能够十分轻松地得到数据的分类模型(见下图),通过不断地地折叠超平面,可以将原本较为复杂的边界描述简单化.

更进一步地,文章的第三节和第四节对于修正神经元的网络和最大输出神经元的网络分别进行分析,给出了在一定条件下的线性区域个数边界.

相关文献

Pascanu R, Montufar G, Bengio Y. On the number of response regions of deep feed forward networks with piece-wise linear activations[J]. arXiv preprint arXiv:1312.6098, 2013.


知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值