论文阅读笔记
基本信息
-
题目:Error bounds for approximations with deep ReLU networks
-
作者:Dmitry Yarotsky
-
关键词:逼近复杂性,深度ReLU神经网络
背景
深度神经网络在图像识别领域的成功,引发了对其性质的研究。我们已经知道深层的神经网络比浅层能更好地逼近目标函数,由于神经网络可以有任意多的层和权重和神经元,那么自然想到这么一个问题,为了逼近特定的函数,需要怎样复杂的模型,才能达到一个特定的精度。在分类问题上,已有的研究基于Vapnik-Chervonenkis维度和Fat-Shattering维度,给出了模型复杂性的上界;本文还给出了模型复杂性的下界。
模型
首先ReLU函数的定义为
σ
(
x
)
=
max
(
0
,
x
)
\sigma(x) = \max{(0,x)}
σ(x)=max(0,x)
函数接受隐含层的节点的输出值作为输入变量,即
y
=
σ
(
∑
k
=
1
N
ω
k
x
k
+
b
)
y=\sigma(\sum_{k=1}^N\omega_kx_k+b)
y=σ(k=1∑Nωkxk+b)
其中的
ω
k
\omega_k
ωk和
b
b
b为可调节的权重。显然,ReLU函数是连续的分段线性函数,对于任意以连续的分段线性函数为激活函数的神经网络,作者给出
命题:令函数 ρ : R → R \rho:\mathbb{R}\to \mathbb{R} ρ:R→R是有M个间断点的连续分段线性函数,其中 1 ≤ M < ∞ 1\leq M < \infin 1≤M<∞,
(a) 令 ξ \xi ξ是一个以 ρ \rho ρ为激活函数的网络,具有L层, W个权重和U个神经元。那么存在一个深度为L,且不大于 ( M + 1 ) 2 W (M + 1)^2W (M+1)2W个权重和不大于 ( M + 1 ) U (M + 1)U (M+1)U个神经元的ReLU网络 η \eta η,使得 η = ξ \eta=\xi η=ξ。
(b) 设 η \eta η为L层的ReLU网络,具有W个权重和U个计算单元。设 D \mathcal{D} D是 R n \mathbb{R^n} Rn的有界子集,其中 n = dim ( η ) n=\dim(\eta) n=dim(η)。那么,存在一个以 ρ \rho ρ为激活函数的网络 ξ \xi ξ,其深度为L,4W个权重,2U个神经元,使得 η = ξ \eta=\xi η=ξ。
这个定理的意义在于建立了一切以线性激活函数模型与ReLU模型之间的对应关系,说明对于ReLU模型的研究是具有一般性意义的。
模型复杂性上界
对于目标函数
f
:
[
0
,
1
]
d
→
R
f:[0,1]^d\to \mathbb{R}
f:[0,1]d→R,我们给出ReLU网络的逼近函数
f
^
\hat{f}
f^,误差为
∥
f
−
f
^
∥
∞
=
max
x
∈
[
0
,
1
]
d
∣
f
(
x
)
−
f
^
∣
\lVert f-\hat{f} \rVert_\infin = \max_{x\in [0,1]^d} |f(x)-\hat{f}|
∥f−f^∥∞=x∈[0,1]dmax∣f(x)−f^∣
定义单位球
F
n
,
d
=
{
f
∈
W
n
,
∞
(
[
0
,
1
]
d
)
:
∥
f
∥
≤
1
}
F_{n,d}=\{f\in W^{n,\infin}([0,1]^d):\lVert f \rVert \leq1 \}
Fn,d={f∈Wn,∞([0,1]d):∥f∥≤1},作者先给出了定理说明ReLU网络的通用性,以及构造网络的复杂性上界。
定理:对于 ∀ d , n ∈ N + \forall d,n \in N^+ ∀d,n∈N+以及 ∀ ϵ ∈ ( 0 , 1 ) \forall \epsilon \in (0,1) ∀ϵ∈(0,1),存在一个ReLU网络 g g g,使得对于 ∀ f ∈ F n , d \forall f \in F_{n,d} ∀f∈Fn,d
∥ g − f ∥ ∞ < ϵ \lVert g- f \rVert_\infin < \epsilon ∥g−f∥∞<ϵ
并且 g g g至多 c ( ln ( 1 ϵ ) + 1 ) c(\ln(\frac{1}{\epsilon})+1) c(ln(ϵ1)+1)层,有至多 c ϵ − d n ( ln ( 1 ϵ ) + 1 ) c\epsilon^{-\frac{d}{n}}(\ln(\frac{1}{\epsilon})+1) cϵ−nd(ln(ϵ1)+1)个神经元和权重,其中的常数 c c c只有 d d d和 n n n有关
换句话说,对于任意 ∀ f ∈ F n , d \forall f\in F_{n,d} ∀f∈Fn,d,达到构造达到特定误差的ReLU网络一定是包含有限神经元的。之后作者应用次定理,证明了对于 ∀ \forall ∀ 函数 f ∈ F 1 , 1 f \in F_{1,1} f∈F1,1和误差 ϵ ∈ ( 0 , 1 2 ) \epsilon \in (0,\frac{1}{2}) ϵ∈(0,21)存在一个深度为6,至多 c ϵ ln ( 1 ϵ ) \frac{c}{\epsilon \ln(\frac{1}{\epsilon})} ϵln(ϵ1)c个权重的神经网络,能够逼近它,并且给出了具体的构造办法。
模型复杂性下界
假设目标函数 f ∈ F d , n f \in F_{d,n} f∈Fd,n,根据目标函数的输入输出,用来构造ReLU网络的映射为 M : F n , d → R W \mathcal{M}:F_{n,d} \to R^W M:Fn,d→RW,其中W是网络的权重数量,这函数ReLU网络本身为函数 η : R W → C ( [ 0 , 1 ] d ) \eta:R^W\to C([0,1]^d) η:RW→C([0,1]d)。这两个函数比较抽象,函数 M M M可以理解成向后传播算法,函数 η \eta η是结构固定,参数可变的ReLU网络,显然 η \eta η是连续的。作者引用了如下的结论
定理:对于固定的 d d d, n n n和 W W W,函数 η : R W → C ( [ 0 , 1 ] d ) \eta: R^W \to C([0,1]^d) η:RW→C([0,1]d),假设存在一给连续函数 M : F d , n → R W \mathcal{M}:F_{d,n} \to R^W M:Fd,n→RW使得
∥ f − η ( M ( f ) ) ∥ ∞ ≤ ϵ \lVert f-\eta(\mathcal{M}(f)) \rVert_\infin \leq \epsilon ∥f−η(M(f))∥∞≤ϵ
那么 W ≥ c ϵ − d n W \geq c \epsilon^{-\frac{d}{n}} W≥cϵ−nd,其中 c c c是一个只依赖于 n n n的常数。
换句话说,这个定理说明对于给定的逼近精度以及对应的目标函数,权重数量是不可能任意少的。之后作者在文中加强了这个结论进一步将下界缩小到 c ϵ − d 2 n c \epsilon^{-\frac{d}{2n}} cϵ−2nd。但这依然不是下确界,下一个定理指出下确界的范围
对于 ∀ d , n , ∃ f ∈ W n , ∞ ( [ 0 , 1 ] d ) \forall d,n, \exists f\in W^{n,\infin}([0,1]^d) ∀d,n,∃f∈Wn,∞([0,1]d),使得任意ReLU网络 g g g,如果满足
∥ f − g ∥ ∞ < ϵ < 1 \lVert f-g \rVert_\infin < \epsilon < 1 ∥f−g∥∞<ϵ<1
那么当 ϵ → 0 \epsilon \to 0 ϵ→0时,网络 g g g的神经元数量 N ( g ) ∉ o ( ϵ − d 9 n ) \mathcal{N}(g) \notin o(\epsilon^{-\frac{d}{9n}}) N(g)∈/o(ϵ−9nd),其中 c c c是一个只依赖于 n n n的常数。
所以我们知道模型的神经元数量介于 ( c ϵ − d 9 n , c ϵ − d 2 n ) (c\epsilon^{-\frac{d}{9n}},c \epsilon^{-\frac{d}{2n}}) (cϵ−9nd,cϵ−2nd)。之后作者指出,如果固定模型的深度为 L L L,那么为了逼近目标函数,权重和神经元数量 N N N的增长与精度 ϵ \epsilon ϵ的关系为 N > c ϵ − 1 2 ( L − 2 ) N > c\epsilon^{-\frac{1}{2(L-2)}} N>cϵ−2(L−2)1,其中 c c c是依赖于目标函数 f f f和 L L L的常数。
结论
本文从两方面证明了深层神经网络比浅层神经网络更有效地逼近目标函数:
- 随着误差界 ϵ → 0 \epsilon \to 0 ϵ→0,满足要求的ReLU网络的深度和神经元数量的上界会一直提高
- 如果目标函数是 C 2 C^2 C2光滑的,那么对于固定深度的ReLU网络,神经元的数量下界也会一直提高
此外,模型的下界还在一定程度上说明为了逼近目标函数,我们不仅需要整模型的权重,最好还要连同模型的结构也一起调整。