理解单隐层ReLU神经网络的全局损失

摘要

  对于单一隐层ReLU神经网络,我们展示在每个可微区间内都是全局极小值。这些局部极小是否唯一可微,取决于数据,隐藏神经元的激活模式,网络大小。我们给出一个是否局部极小值存在它们的定义的区域内的标准,还有它们的位置和损失值。进一步,我们给出鞍点和不可微局部极小存在的充要条件。最后,我们计算高斯输入数据和平行权重向量陷入局部极小的概率,并证明当权重位于数据不太缺乏的区域时,该概率是指数消失的。这也许可以解释为什么在训练深度ReLU神经网络时,基于梯度的局部搜索方法通常不会陷入局部极小值。

1、引言

  深度学习中最大的谜团之一是尽管损失函数具有高度非凸性,但基于局部搜索的优化方法(如梯度下降法)在实践中仍然经常成功。了解损失函数的全局情况,特别是局部极小值和鞍点是否存在,以及它们的数量和位置(如果存在的话),将有助于解决这个难题。在此基础上,可以设计出对初始权值不敏感的搜索算法,保证有效地避开所有的局部极值和鞍点。

  结果表明,对于某些特定类型的网络,包括深度线性网络、具有二次激活的单隐层网络、非常宽的网络和具有特殊类型额外神经元的网络(相关工作参见1.1小节),不存在糟糕的局部极小值。换句话说,对于这些网络来说,所有的局部最小值都是全局的,并且没有陷入糟糕的局部最小值的机会。然而,通常情况下,ReLU网络在实践中应用并不广泛。由于ReLU激活所引入的非光滑性,将ReLU网络的权值空间分为可微区域和不可微区域。对于任何尺寸和任何输入的ReLU网络,不可微局部极小值的存在需要什么条件,以及存在局部极小值的概率在权值空间中如何变化,这在理论上是不清楚的。另一方面,尽管有关于逃逸鞍点的研究,但对于ReLU网络的鞍点的分析探索,包括鞍点存在的条件和位置,在很大程度上仍然是缺失的。

  本文试图了解单隐层ReLU网络的全局损失情况,以期对一般深层ReLU网络的理解有所启发。更具体地说,对于任何规模的单隐层ReLU网络(不仅仅是网络规模远大于样本数量的参数化情况),我们在本文中做出了以下贡献。

  • 我们证明了在每一个可微区域内,所有局部极小值都是全局最小值(在每个可微区域内都不存在糟糕的局部极值)。我们证明局部极小值可以是唯一的,也可以是连续的,这取决于数据、隐藏层神经元的激活模式和网络大小。我们首先求出每个可微区域的局部极小点的位置。然后我们给出标准来测试它们是否真的在它们的定义区域内。
  • 我们给出了鞍点存在的充要条件,给出了位于可微区域边界上的不可微局部极小值,以及它们存在的位置。
  • 我们计算了高斯输入数据和并行权向量存在的真实局部极小值的概率,并证明当权值距离数据分布峰值不远时,该极小值是指数消失的。

  本文安排如下。第1.1节是相关工作。第2节给出了初步的介绍,并描述了单隐藏层ReLU网络模型。在第3节中,我们证明了对于可微区域,所有的局部极小值都是全局的。第4节给出了真正可微局部极小值存在的条件及其位置,并用一个简单的例子说明了局部极小值的单点和连续情况。我们在第5节中给出了鞍点存在的充要条件。在第6节中给出了不可微局部极小点的充要条件。在第7节中,我们计算了高斯输入达到局部极小值的概率,并通过实验演示了这个概率在权空间中的变化。最后,对本文进行了总结,并指出了今后的研究方向。关于引理和定理的详细证明将放到附录部分。

1.1 相关工作

  损失形状(损失景观) 矩阵补全和张量分解,如Ge等(2016)是两个未知矩阵乘积的学习模型,已经证明,对于这样的模型,所有的局部极小值都是全局的。根据Kawaguchi(2016)的研究,深度线性网络消除了多层感知中每个神经元的非线性激活函数,也没有虚假的局部极小值;陆和川口(2017);Laurent & von Brecht (2018a);Yun等人(2018);Nouiehed & Razaviyayn (2018);张(2019)。Hardt & Ma(2017)的研究表明,深度线性残差网络没有虚假的局部最优。Choromanska等人(2015)使用统计物理中的自旋玻璃模型来分析景观,简化了深度神经网络的非线性本质。

  对于二次激活的单隐层超参数化网络,Soltanolkotabi等(2019);Du & Lee(2018)证明了所有局部极小值都是全局的。对于单隐藏层ReLU网络,Soudry & Carmon(2016)给出了可微局部极小值损失为零的条件,从而成为全局极小值。Laurent & von Brecht (2018b)证明了具有铰链损失的ReLU网络只能有不可微的局部极小值,并给出了线性可分数据存在的条件。Safran和Shamir(2016)的研究表明,对于参数化的单隐层ReLU网络,初始化的概率很高,损失也很小。Soudry & Hoffer(2017)表明,给定标准高斯输入数据,与包含全局极小值的可微区域相比,包含次优可微局部极小值的可微区域的体积呈指数消失。

  文丘里等人(2018)探索了无伪谷超宽网络;Nguyen & Hein (2019);Li等(2018a);Nguyen等人(2019年);丁等人(2019)。梁等(2018b,a);Kawaguchi和Kaelbling(2019)的研究表明,通过在快捷连接中添加单层网络甚至单个特殊神经元,每个局部最小值都变成了全局最小值。Ge等(2017);高等(2018);Feizi等人(2017)设计了新的损失函数或特殊网络,使所有局部极小值都是全局的。沙米尔(2018);Kawaguchi和Bengio(2018)证明了具有非线性的深度在一类ResNets不产生坏的局部极小值,因为所有局部极小值并不比相应的浅线性预测器的全局极小值差。彭宁顿和沃拉(2018);Pennington & Bahri(2017)利用随机矩阵理论研究了损失函数的海森斯谱,它表征了静止点附近的景观。Mei等人(2016);Zhou & Feng(2018)研究了预期损失的景观。

  鞍点 Dauphin等(2014)认为基于局部搜索的优化方法的一个主要困难来源是鞍点的扩散。Yun等人(2018)给出了区分深度线性网络的鞍点和局部极小值的条件。Jin等(2017)设计了一种能够有效逃离鞍点的局部搜索算法。尽管有这些工作,ReLU神经网络存在鞍点的具体条件仍然缺乏。

  形状的经验研究 除了理论研究外,还有一些关于景观可视化的实验探索(Goodfellow et al., 2015);廖和博吉奥(2017);Li et al. (2018b), level sets geometry Freeman & Bruna (2017) and mode connectivity Draxler et al. (2018); Garipov et al.(2018)。

  基于梯度的优化算法的收敛性 基于梯度的深度神经网络训练方法的收敛性已经有了很多研究。近期作品有:杜等人(2019年);朱艾伦等人(2019年);邹等(2018)研究表明,对于全连通、卷积和残差网络,如果梯度下降足够宽、步长足够小、权值初始化为高斯,梯度下降总是收敛的。然而,对于任何规模和任意初始权值的网络的收敛分析仍然需要对全局情况的理解。

  与我们的工作相比较 与我们最相关的作品是Soudry & Carmon (2016);Laurent & von Brecht (2018b);Safran & Shamir (2016);Soudry & Hoffer (2017);Safran & Shamir (2018);Zhou & Liang(2018),他们都研究了单层ReLU网络的局部极小值。与我们的工作相比,Soudry & Carmon(2016)只考虑了超参数化的情况,Laurent & von Brecht (2018b)采用了铰链损耗和线性可分数据,而我们的理论是通用的,适用于任何大小和任何输入的单隐层ReLU网络。Safran和Shamir(2016)计算了在包含全局极小值的陷入低谷的概率,而我们的理论考虑了在整个权重空间中存在的真正局部极小值的概率是如何变化的。Safran和Shamir(2018)的实验研究使用了一个学生-教师目标。比我们的不同。Soudry & Hoffer(2017)计算了局部极小值不佳的概率。然而,他们对局部极值的概念与我们不同,因为他们指的是具有非零损耗的局部极值,而在他们定义的盆地之外,这可能不是真正的极值。与Zhou & Liang(2018)相比,我们对可微区域无伪局部极小的证明是不同的,而且更简单,我们建议使用超平面的交点来识别真正的局部极小。

2、单隐层ReLU神经网络模型和初步

  在本文研究的单隐层ReLU网络模型中,存在 K K K个ReLU函数激活的隐层神经元、 d d d个输入神经元和 1 1 1个输出神经元。我们用 [ N ] [N] [N]表示 { 1 , 2 , ⋅ ⋅ ⋅ , N } \{1,2,···,N\} {1,2N}。输入样本是 ( x i , y i ) ( i ∈ [ N ] ) (x_i, y_i) (i∈[N]) (xi,yi)(i[N]),其中 x i ∈ R d x_i∈\mathbb{R}^d xiRd是第 i i i个齐次数据向量(即标量 1 1 1)和 y i ∈ ± 1 y_i∈±1 yi±1进行是 x i x_i xi的标签。我们对网络大小和输入数据不做任何假设。将连接隐藏神经元与输入的权向量记为 ( w i , i ∈ [ K ] ) (w_i, i∈[K]) (wi,i[K])(增偏),输出神经元与隐藏神经元之间的权向量记为 ( z i , i ∈ [ K ] ) (z_i, i∈[K]) (zi,i[K]),则一隐含层ReLU网络的损失为

在这里插入图片描述

其中 z = { z k , k ∈ [ k ] } , w = { w k , k ∈ [ k ] } , [ y ] + = m a x ( 0 , y ) z = \{z_k, k∈[k]\}, w = \{w_k, k∈[k]\}, [y]_+ = max(0,y) z={zk,k[k]}w={wk,k[k]}[y]+=max(0,y)为ReLU函数, l l l为损失函数。我们假设 l l l是凸的,这适用于常用的平方损失和交叉熵损失。

  即,输入样本(权重 w i w_i wi连接)隐藏神经元(权重 z i z_i zi连接)输出神经元
  Moore-Penrose逆矩阵Horn & Johnson(2012)将在本文中大量使用。 M + M^+ M+表示矩阵 M ∈ R m × n M∈\mathbb{R} ^{m×n} MRm×n的Moore-Penrose逆。它满足以下四个方程: M M + M = M , M + M M + = M + , ( M M + ) T = M M + , ( M + M ) T = M + M MM^+M=M, M^+MM^+=M^+,(MM^+)^T=MM^+,(M^+M)^T=M^+M MM+M=M,M+MM+=M+,(MM+)T=MM+,(M+M)T=M+M。因此, M M + MM^+ MM+是对称的,如果 M = 0 M=0 M=0,则 M + = 0 M^+=0 M+=0。当且仅当 r a n k ( M ) = m rank(M) = m rank(M)=m M + m = I n M^+m=I_n M+m=In当且仅当 r a n k ( M ) = n rank(M)=n rank(M)=n时,其中 I m I_m Im m × m m×m m×m单位矩阵。若 M ∈ R r m × n ( R > 0 是 M M∈ \mathbb{R}^{m×n}_r (R >0是M MRrm×n(R>0M的秩), M M M的全秩分解是 M = F G ( F ∈ R r m × R , G ∈ R r r × n ) M = FG (F∈\mathbb{R}^{m×R}_r,G∈R^{r×n}_r) M=FG(FRrm×R,GRrr×n),则 M + = G T ( G G T ) − 1 ( F T F ) − 1 F T M^+=G^T(GG^T)^{−1}(F^TF)^{−1}F^T M+=GT(GGT)1(FTF)1FT。对于 b ∈ R m b∈R^m bRm,最小二乘问题 m i n z ∣ ∣ M z − b ∣ ∣ 2 2 min_z||M\mathbf{z}−\mathbf{b}||^2_2 minzMzb22的通解是 z = M b + ( I − M + M ) c , ( c ∈ R n \mathbf{z}=M^b+(I−M^+M)\mathbf{c}, (\mathbf{c}∈R^n z=Mb+(IM+M)c(cRn是任意的)。线性方程组 M z = b M\mathbf{z}=b Mz=b可解的充要条件为 M M + b = b MM^+\mathbf{b}=\mathbf{b} MM+b=b,通解为 z = M + b + ( I − M + M ) c \mathbf{z}=M^+\mathbf{b}+(I-M^+M)\mathbf{c} z=M+b+(IM+M)c

3、所有的局部极小值都是全局的

  让我们把损失改写成简化问题的形式。引入变量 I i j I_{ij} Iij,如果 w j ⋅ x i > 0 w_j·x_i>0 wjxi>0,等于 1 1 1。否则为 0 0 0(判断该神经元是否被激活) 损失可重写为:
在这里插入图片描述

  激活就通过隐层,不激活就不通过隐藏。
  定义 R j = z j w j \mathbf{R}_j=z_j\mathbf{w}_j Rj=zjwj ,将两层的权值进行积分,将损失转化为:

在这里插入图片描述

其中 R = { R k , k ∈ [ K ] } \mathbf{R} = \{\mathbf{R}_k, k∈[K]\} R={Rk,k[K]} 。这种转换是我们后续章节证明的关键。它在很大程度上隐藏了两层权重的复杂性。

  即将输入样本与隐藏神经元,隐藏神经元与输出神经元,两者之间的权重用 R R R表示来代表。

  对于单隐层 R e L U ReLU ReLU网络模型, x \mathbf{x} x w \mathbf{w} w空间中的超平面。样本 ( x i , i ∈ [ N ] ) (x_i, i∈[N]) (xi,i[N]) w w w空间划分为若干凸单元,如单元 1 1 1和单元 2 2 2,如图 1 1 1所示。因此,每个权值 w j w_j wj都位于某一细胞或细胞边界上。如果所有的权值 ( w j , j ∈ [ K ] ) (w_j, j∈[K]) (wj,j[K])都位于单元格内,并且在单元格内移动而不跨越边界,则 I i j ( I ∈ [ N ] ) I_{ij} (I∈[N]) Iij(I[N])的值是常数,因此损失 L L L在这些单元格内是 ( R j , j ∈ [ K ] ) (\mathbf{R}_j, j∈[K]) (Rj,j[K]) 的可微函数。我们将其中 ( w j , j ∈ [ K ] ) (w_j, j∈[K]) (wj,j[K])的单元称为定义单元。当越过两个细胞的边界时,如图 1 1 1中从细胞 2 2 2到细胞 1 , I 21 1,I_{21} 1,I21在边界处从 1 1 1变为 0 0 0。因此,损失函数 L L L在边界处是不可微的。局部极小值可以存在于单元内部或边界上,我们分别称之为可微和不可微的局部极小值。

在这里插入图片描述
图一:样本将权重空间划分为单元格。

  在本节中,我们将证明在每个单元中所有可微局部极小值都是全局的。我们首先证明 L L L的可微局部极小值将导致 ∂ L ∂ R j = 0 ( j ∈ [ K ] ) \frac{∂L}{∂\mathbf{R}_j} = 0 (j∈[K]) RjL=0(j[K]),然后通过 L L L的凸性和凸函数的驻点对应于其唯一全局极小值的事实,得到期望的结论。

引理1 (1)中 L ( z , w ) L(z,w) L(z,w)的任何可微局部极小值都对应于(2)中 L ( R ) L(R) L(R)的驻点,即 ∂ L ∂ R j = 0 ( j ∈ [ K ] ) \frac{∂L}{∂\mathbf{R}_j} = 0(j∈[K]) RjL=0(j[K])

  详细的证明见附录A,这里我们给出了证明示意图。在任何可微的局部最小值 ( z ^ , w ^ ) (\hat{z},\hat{w}) (z^,w^),导数 ∂ L ∂ z j , ∂ L ∂ w j ( j ∈ [ K ] ) \frac{∂L}{∂z_j},\frac{∂L}{∂w_j}(j∈[K]) zjL,wjL(j[K])存在,都等于 0 0 0。通过 R j = z j w j \mathbf{R}_j = z_j\mathbf{w}_j Rj=zjwj,我们得到

在这里插入图片描述

  下面的定理 1 1 1建立了可微局部极小的全局性,其证明在附录A中给出。

定理1 如果损失函数 l l l是凸的,那么 L ( z , w ) L(z,w) L(z,w)的任何可微局部极小值都是全局极小值。此外, L ( z , w ) L(z,w) L(z,w)没有局部极大值。

  尽管可微局部极小值在其定义区域内是全局的,但它们通常仍然是全局中的局部极小值。此外,尽管 L ( R ) L(\mathbf{R}) L(R)有一个唯一的全局最小值(除非有一些 R i \mathbf{R}_i Ri没有涉及到 L L L,见4.1小节),但 ( z , w ) (z,\mathbf{w}) (z,w)达到全局最小损失并不是唯一的。由于当 c ≠ 0 c\ne0 c=0时, R j = z j w j = c z j ⋅ 1 c w j \mathbf{R}_j = z_j\mathbf{w}_j = cz_j·\frac{1}{c}\mathbf{w}_j Rj=zjwj=czjc1wj。因此,如果 { z j , w j } \{z_j,\mathbf{w}_j\} {zj,wj} 达到全局最小损失,那么 { c z j , 1 c w j } \{cz_j, \frac{1}{c}\mathbf{w}_j\} {czj,c1wj}也一样。同样值得指出的是,虽然 L ( z , w ) L(z,\mathbf{w}) L(z,w)没有局部极大值,但它可能有鞍点,这将在第5节中讨论。

4、可微局部极小值的存在性准则及其位置

  定理 1 1 1指出在每个单元中,所有局部的极小值 L ( z , w ) L(z,\mathbf{w}) L(z,w)都是全局的。在这一节中,我们首先找出 { z j ∗ , w j ∗ ; j ∈ [ K ] } \{z_j^\ast,\mathbf{w}_j^\ast;j∈[K]\} {zj,wj;j[K]} 达到全局最小值,然后给出 { w j ∗ ; j ∈ [ K ] } \{\mathbf{w}_j^\ast;j∈[K]\} {wj;j[K]} 是否在定义单元内从而成为真正的可微局部极小值的判断标准。

4.1 可微局部极小点的位置

  从现在开始,为了得到解析解我们假设损失函数 l l l是平方差损失。引理 1 1 1表明,对于可微局部极小值, ∂ L ∂ R j = 0 ( j ∈ [ K ] ) \frac{∂L}{∂\mathbf{R}_j} = 0 (j∈[K]) RjL=0(j[K]),就等于解决了下面的最小二乘问题,

在这里插入图片描述
  相关联的线性系统 ∑ j = 1 K I i j R j ⋅ x i = y i ( i ∈ [ N ] ) \sum_{j=1}^{K}I_{ij}\mathbf{R}_j·\mathbf{x}_i=y_i(i∈[N]) j=1KIijRjxi=yi(i[N])可以改写成以下形式:

在这里插入图片描述

并且 R = ( R 1 T … R K T ) T \mathbf{R}=(\mathbf{R}_1^T…\mathbf{R}_K^T)^T R=(R1TRKT)T。在这里我们将 R \mathbf{R} R的含义从(2)中的一个集合更改为一个向量而不影响理解。根据矩阵理论,对于非方阵 A ∈ R N × K d A∈\mathbb{R}^{N\times Kd} ARN×Kd,最小二乘问题(5)的一般解 R \mathbf{R} R可以用摩尔-彭罗斯逆的A表示如下,

在这里插入图片描述

c ∈ R K d c ∈\mathbb{R}^{Kd} cRKd是任意向量, I I I是单位矩阵。

  最优解 R ∗ \mathbf{R}^\ast R能够被如下几种情况所表征:

  • 1) R ∗ \mathbf{R}^\ast R 是唯一的: R ∗ = A + y R^\ast=A^+y R=A+y ,对应于 A + A = I A^+A=I A+A=I ,因此 ( I − A + A ) c (I-A^+A)c (IA+A)c 消失了。当且仅当 r a n k ( A ) = K d rank(A) = Kd rank(A)=Kd时发生。因此, N ≥ K d N≥Kd NKd是唯一解的必要条件。当 A A A有满秩时,利用满秩分解: A + = ( A T A ) − 1 A T A^+=(A^TA)^{-1}A^T A+=(ATA)1AT,解可表示为:
    在这里插入图片描述(8)也可以通过求解 ∂ L ∂ R j = 0 ( j ∈ [ K ] ) \frac{∂L}{∂\mathbf{R}j}=0(j∈[K]) RjL=0(j[K])的线性系统得到,该方法将在本文后面的鞍点等处采用。

  • 2) R ∗ \mathbf{R}^\ast R 有无限个连续的解。在这种情况下, I − A + A ≠ 0 I−A^+A\ne0 IA+A=0,因此任意向量 c c c起作用。只有当 r a n k ( A ) ≠ K d rank(A)\ne Kd rank(A)=Kd时才会发生这种情况。因此,存在无限个最优解的两种可能情况。a). N < K d N<Kd N<Kd。这通常被称为超参数化, A R = y A\mathbf{R}=y AR=y有无限个解,其中 R \mathbf{R} R的一些分量是自由变量。b) N ≥ K d N≥Kd NKd r a n k ( A ) < K d rank(A)<Kd rank(A)<Kd举例就是一些隐藏的神经元并不是被所有的样本激活。(也就是说, I i j = 0 I_{ij}=0 Iij=0对于 I ∈ [ N ] I∈[N] I[N] A A A中对应的列是 0 0 0)。

  与这些隐藏神经元相关的 R j \mathbf{R}_j Rj不影响损失 L L L,因此可以自由改变。一个特殊的情况是,所有隐藏的单元不会被任何样本激活,从而得到 A = 0 A = 0 A=0,因此得到 A + = 0 A^+=0 A+=0 R ∗ = c \mathbf{R}^\ast = c R=c ,在这种情况下, R ∗ = c \mathbf{R}^\ast = c R=c 可以是整个加权空间中的任意向量。

  一般来说,(7)显示出 R ∗ \mathbf{R}^\ast R c ∈ R K d c∈\mathbb{R}^{Kd} cRKd的仿射变换。因此, R j ∗ \mathbf{R}^\ast_j Rj可以是整个 R d \mathbb{R}^d Rd空间,也可以是它的一个子空间,这取决于与 R j ∗ \mathbf{R}^\ast_j Rj对应的 ( I − A + A ) (I−A^+A) (IA+A)行是否为全秩。

  为了得到这些最小值,我们将(7)代入损耗 L ( R ∗ ) = 1 N ∣ ∣ A R ∗ − y ∣ ∣ 2 2 L(\mathbf{R}^\ast)= \frac{1}{N}||A\mathbf{R}^\ast-\mathbf{y}||^2_2 L(R)=N1ARy22,得到:
在这里插入图片描述

  只有当 A A + y = y AA^+\mathbf{y}=\mathbf{y} AA+y=y时,损失函数 L L L 0 0 0,对应原线性系统 A R = y A\mathbf{R} = \mathbf{y} AR=y有解。

4.2 一个说明性的例子

  我们给出了一个非常简单的例子来说明不同情况下的微分局部极小。假设只有一个隐藏神经元,在二维输入空间中有两个样本: x 1 = ( 1 , 0 ) T x_1 = (1,0)^ T x1=(1,0)T x 2 = ( 0 , 1 ) T x_2 = (0,1)^T x2=(0,1)T y 1 = 1 y_1 = 1 y1=1 y 2 = 1 y_2 = 1 y2=1。设 z = 1 z = 1 z=1,偏置 b = 0 b = 0 b=0。这两个样本成为 w \mathbf{w} w空间中的两个向量,因此总共有四个细胞。我们可以在每个单元格使用(7)和(9)计算局部最小值的位置和损失值,细节呈现在附录B 。图2(a)显示整个景观,从这一个可以看到,在每个细胞里没有伪可微局部最小值,可微局部最小值或者是一个点或者是一条线或者一个平坦的高原

附录B. landscape的一个说明性的例子

  假设只有一个隐藏神经元,二维输入空间中有两个样本: x 1 = ( 1 , 0 ) T x_1=(1,0)^T x1=(1,0)T x 2 = ( 0 , 1 ) T x_2=(0,1)^T x2=(0,1)T y 1 = 1 , y 2 = 1 y_1=1,y_2=1 y1=1,y2=1。设 z = 1 z=1 z=1,偏置 b = 0 b=0 b=0。将仅有的权向量表示为 w w w,则两个样本成为空间中的两个向量,如下图所示。
在这里插入图片描述
损失景观的一个说明性示例:两个样本在 2 D 2D 2D权值空间中生成四个单元。

  在空间总共有四个单元格。在单元 r 1 r_1 r1中, I 11 = I 21 = 0 I_{11}=I_{21}=0 I11=I21=0,因此 A = 0 A=0 A=0 R ∗ \mathbf{R}^\ast R是任意的。根据主文本中的(9),损失函数 L = 1 2 ( y 1 2 + y 2 2 ) = 1 L=\frac{1}{2}(y_1^2+y_2^2)=1 L=21(y12+y22)=1。实际上,在细胞 r 1 r_1 r1中,两个样本都不活跃,损失也不随 w \mathbf{w} w而变化,因此景观是一个平坦的高原。损失函数是1,A的秩为0,局部极小是平面。细胞 r 2 r_2 r2 r 3 r_3 r3是相似的,我们将以 r 3 r_3 r3为例。

  
  这是一条到 x 1 \mathbf{x}_1 x1的距离是 1 1 1的线段。 A的秩为1,不是满秩矩阵,局部极小是一条线 r 3 r_3 r3的最小损失是 L = 1 2 L=\frac{1}{2} L=21 L ( R ∗ ) = 1 N ∣ ∣ A R ∗ − y ∣ ∣ 2 2 L(\mathbf{R}^\ast)= \frac{1}{N}||A\mathbf{R}^\ast-\mathbf{y}||^2_2 L(R)=N1ARy22公式可以计算出来

  在 r 4 r_4 r4区域:
在这里插入图片描述
r 4 r_4 r4中的景观有一唯一最小值。 r 4 r_4 r4中的最小损失是主文本中(9) L = 0 L=0 L=0因此 r 4 r_4 r4中的局部极小值是全局最小值。

4.3 真可微局部极小值存在的标准

  在上面的例子中,如果 y 2 = − 1 y_2 =−1 y2=1,则 R ∗ \mathbf{R}^\ast R r 4 r_4 r4细胞(右上角的那一个)的相对位置上显示的是 ( 1 , − 1 ) T (1,−1)^T (1,1)T,实际上在 r 4 r_4 r4外面。在这种情况下, r 4 r_4 r4区域完全没有微分局部极小值,如图2(b)所示。在本小节中,我们将介绍在哪些条件下 R ∗ \mathbf{R}^\ast R将被保存在定义单元中。根据不同的 R ∗ \mathbf{R}^\ast R状态,对每个状态的条件进行如下讨论。

在这里插入图片描述
图2:两个样本的损失景观的一个说明性示例。(a) y 1 = 1 , y 2 = 1 y_1 = 1,y_2 = 1 y1=1,y2=1。(b) y 1 = 1 , y 2 = − 1 y_1 = 1,y_2 = - 1 y1=1,y2=1 a a a,左下边是平坦的损失值是 0 0 0,左上边和右下边的极小值是 1 2 \frac{1}{2} 21,右上边的最小值是 1 1 1,同时也是全局最小值

  • 1)对于 R ∗ \mathbf{R}^\ast R 是唯一的这种情况,为了让 w \mathbf{w} w 显示在定义的细胞中, w ∗ \mathbf{w}^\ast w 应该在每个样本的同一侧,在这些细胞中的任意一点上。对于指定定义单元格的 I i j ( i ∈ [ N ] ; j ∈ [ K ] ) I_{ij} (i∈[N];j∈[K]) Iij(i[N];j[K]),可以表示为:
    在这里插入图片描述
    因为 R j ∗ = z j ∗ w j ∗ \mathbf{R}^\ast_j = z^\ast_j \mathbf{w}^\ast_j Rj=zjwj ,这些条件会被变成在这里插入图片描述
    除了它的符号外, z j ∗ z^\ast_j zj的大小并不影响状态,因此对于给定的 R j ∗ \mathbf{R} ^\ast_j Rj 来说,可微的局部最小值 ( z j ∗ , w j ∗ ) (z^\ast_j,\mathbf{w}^\ast_j) (zj,wj) 有两个分支,它们对应着 z j ∗ z^\ast_j zj 的不同符号。因此,存在唯一可微局部极小值的条件可以表示为:对于每一个 R j ∗ ( j ∈ [ K ] ) \mathbf{R} ^\ast_j (j∈[K]) Rj(j[K])

在这里插入图片描述
在这里插入图片描述

  • 2) R ∗ \mathbf{R}^\ast R是连续的,我们需要测试在(7)中连续可微的局部最小值是否在它们的定义细胞中。例如,将(7)替换为(11),那么对于每一个 R j ∗ ( j ∈ [ K ] ) \mathbf{R}^\ast_j (j∈[K]) Rj(j[K]),条件就变成了
    在这里插入图片描述其中 ( A + y ) j (A ^+ \mathbf{y})_j (A+y)j A + y A^+\mathbf{y} A+y 相对于 R j ∗ \mathbf{R}^\ast_j Rj的行,以此类推。式(13)中 c c c的每个不等式定义了 R k d R^{kd} Rkd中的一个半空间。因此,现有的真正的连续可微局部极小化的准则归结为确定所有这些半空间的交点是否为空。非零交将是一个凸高维多面体。

  另一种判断真正的连续可微的局部最小值的存在方法是从(7)中提取 R j ∗ \mathbf{R}^\ast_j Rj这是整个 R d \mathbb{R}^d Rd空间或它的一个线性子空间取决于行 ( I − A + A ) j (I−A^ + A) _j (IA+A)j是否是满秩。如果所有 R j ∗ ( j ∈ [ K ] \mathbf{R}^\ast_j (j∈[K] Rj(j[K])都是整个 R d \mathbb{R}^d Rd空间,那么定义单元中的任何一点都是一个真正的可微局部极小值。图 2 2 2中的平坦高原区域就是一个例子。如果 R j ∗ \mathbf{R}^\ast_j Rj是一个 R d \mathbb{R}^d Rd的线性空间,我们可以提前计算出细胞(将排列算法de Berg等人(2008)应用于样本的超平面),然后为每个 R j ∗ , ( j ∈ [ K ] ) \mathbf{R}^\ast_j,(j∈[K]) Rj,(j[K]) 找到其定义单元和线性子空间的交集。如果所有的交点都不为空,则存在连续的真可微局部极小值。

5、鞍点

5.1 可微鞍点存在的充要条件

  与局部极小值不同,鞍点是同时具有上升和下降方向的驻点,因此它们的海森矩阵是不确定的。

  由于鞍点是固定点,(3)和(4)仍然成立。如果 ∂ L ∂ R j ≠ 0 \frac{∂L}{∂\mathbf{R}_j}\ne0 RjL=0,则 z j = 0 z_j = 0 zj=0。另一方面,如果 ∂ L ∂ R j = 0 \frac{∂L}{∂\mathbf{R}_j}=0 RjL=0,(3)和(4)都满足。然而, ∂ L ∂ R j ( j ∈ [ K ] ) \frac{∂L}{∂\mathbf{R}_j} (j∈[K]) RjL(j[K])不可能全部等于零,否则解将是可微局部极小而不是鞍点。我们需要测试所有可能的组合形式:

在这里插入图片描述

定理2对于(1)中的损失函数 l l l为平方差损失,对于形式的所有组合在这里插入图片描述,其中(j 1, j 2,···,j K) ( 1 , 2 , ⋅ ⋅ ⋅ , K ) (1,2,···,K) (1,2K)的任意排列,鞍点的最优在这里插入图片描述线性系统的解在这里插入图片描述是一块矩阵和B∈R K 0 d是一块向量与下面的组件,

在这里插入图片描述

鞍点的最优解在这里插入图片描述满足
在这里插入图片描述

误差是在这里插入图片描述

  正如4.1小节所示,在这里插入图片描述可能是唯一的,也可能是连续的。另一方面,(15)表明w j (j = j K 0 +1,···,j K)在经过 w j \mathbf{w}_ j wj空间中的原点的超平面上。定理 2 2 2的证明将在附录C.1中给出。

附录C:可微鞍点存在的充要条件

C.1 定理2的证明

  因为鞍点也是驻点,(A.3)和(A.4)仍然成立。如果 ∂ L ∂ R j = 0 \frac{∂L}{∂\mathbf{R}_ j }= 0 RjL=0,(A.3)和(A.4)都满足。另一方面,如果通过(A.4) ∂ L ∂ R j ≠ 0 \frac{∂L}{∂\mathbf{R}_ j }\ne 0 RjL=0 ,则 z j = 0 zj = 0 zj=0。然而, ∂ ∂ L ∂ R j = 0 ( j = 1 , 2 , ⋅ ⋅ ⋅ , K ) ∂\frac{∂L}{∂\mathbf{R}_ j }= 0 (j = 1,2,···,K) RjL=0(j=1,2K)不可能同时等于 0 0 0,否则解将是可微局部极小值而不是鞍点。不失一般性,假设 ∂ ∂ L ∂ R j = 0 ( j = j 1 , j 2 , ⋅ ⋅ ⋅ , j K ′ ; K ′ < K ) ∂\frac{∂L}{∂\mathbf{R}_ j }= 0 (j = j _1,j _2,···,j _{K^\prime};K^\prime < K) RjL=0(j=j1,j2jK;K<K),其余 ∂ ∂ L ∂ R j ( j = j k ′ + 1 , . . . , j k ) ∂\frac{∂L}{∂\mathbf{R}_ j } (j = j _{k^\prime+1},...,j_k) RjL(j=jk+1,...,jk)不为 0 0 0。我们需要测试所有可能的组合 ( j 1 , j 2 , ⋅ ⋅ ⋅ , j K ′ ) (j _1,j_ 2,···,j _{K^\prime}) (j1,j2jK),这样 ∂ ∂ L ∂ R j = 0 ( j = j 1 , j 2 , ⋅ ⋅ ⋅ , j K ′ ; K ′ < K ) ∂\frac{∂L}{∂\mathbf{R}_ j }= 0 (j = j _1,j _2,···,j _{K^\prime};K^\prime < K) RjL=0(j=j1,j2jK;K<K),看是否存在鞍点。

  从现在开始忽略 L L L中的 1 N \frac{1}{N} N1,我们有

在这里插入图片描述

6、不可微局部极小

  我们考虑这样一种情况:一个权向量位于两个单元的边界上,因此(2)中的损失函数 L L L是不可微的。假设 w m \mathbf{w}_m wm 被一个样本 x n \mathbf{x}_n xn隔开位于细胞 1 1 1和细胞 2 2 2的边界上。我们将给出在这里插入图片描述为不可微局部极小的充要条件。

   ∂ L ∂ w m \frac{∂L}{∂\mathbf{w}_m} wmL是不可微的。在下面的引理中,为了使 w m \mathbf{w}_m wm是局部最小值,我们给出 ∂ L ∂ w m \frac{∂L}{∂\mathbf{w}_m} wmL应该满足的约束条件。

引理2:假设 w ~ m \tilde{\mathbf{w}}_m w~m位于被样本 x n \mathbf{x}_n xn隔开的细胞 1 1 1和细胞 2 2 2的边界上,其中细胞 2 2 2 x n \mathbf{x}_n xn的正侧,细胞 1 1 1在负侧。 w ~ m \tilde{\mathbf{w}}_m w~m是一个不可微的极小值当且仅当:
在这里插入图片描述
其中 a / / b \mathbf{a}//\mathbf{b} a//b表示向量 a \mathbf{a} a b \mathbf{b} b方向相同, ∂ L ∂ w m ∣ 1 \frac{∂L}{∂\mathbf{w}_m}|_1 wmL1就是 1 1 1号细胞里的 ∂ L ∂ w m \frac{∂L}{∂\mathbf{w}_m} wmL

  利用以下定理,给出了不可微局部极小值存在的条件。

定理3:对于(1)中的损失函数 l l l是平方差损失,存在不可微的局部最小值驻留在两个细胞的边界当且仅当线性系统 D R = d D\mathbf{R}=d DR=d对于任何 m ∈ [ K ] m∈[K] m[K]有解,在 D ∈ R ( K + 1 ) d × K d D∈\mathbb{R}^{(K + 1) d\times Kd} DR(K+1)d×Kd是一个矩阵, d ∈ R ( K + 1 ) d d∈\mathbb{R}^{(K + 1) d} dR(K+1)d与以下的组合是一个矢量,
在这里插入图片描述

它的解 R ∗ \mathbf{R}^* R满足以下两个不等式,或者 z m > 0 z_m>0 zm>0 z m < 0 z_m<0 zm<0
在这里插入图片描述

  定理 3 3 3中的线性系统有解当且仅当 D D + d = d DD^+ \mathbf{d} = \mathbf{d} DD+d=d 。如果是可解的,它的一般解是 R ∗ = D + d + ( I − D + D ) c \mathbf{R}^\ast= D^+\mathbf{d}+ (I−D ^+ D)\mathbf{c} R=D+d+(ID+D)c 。如果 R ∗ \mathbf{R}^\ast R 是不唯一的,则(18)和(19)中的每个不等式将把 c c c 限制在半空间内。因此,如果这些半空间的交点不为空,则存在不可微局部极小。引理 2 2 2和定理 3 3 3的证明将在附录D.1中给出,并且在附录D.2中给出真正不可微局部极小值存在的条件。

7、存在真正的局部极小值的概率

7.1 当所有权值向量平行时局部极小点的位置

  在这一节中,我们将计算高斯输入数据存在的真实局部极小值的概率,并展示这个概率如何随着网络权值的变化而变化。其核心思想是,如果没有样本位于原始的加权向量 w \mathbf{w} w 和局部最小 w ∗ \mathbf{w}^\ast w 显示之间,(10)成立并且 w ∗ \mathbf{w}^\ast w w \mathbf{w} w 存在于相同的细胞内,因此就得到了真正的局部最小。因此,存在真正的局部极小值的概率实际上是 w \mathbf{w} w w ∗ \mathbf{w}^\ast w 之间不存在样本的概率。然而,从 w ∗ \mathbf{w}^\ast w在(8)的一般解出发得到分析概率是很复杂的。相反,我们将施加一些限制来简化解决方案。

  更具体地说,我们假设所有的权值都是平行的。用单位向量 i \mathbf{i} i表示权向量的方向,权 w k \mathbf{w}_k wk由其法向量 n k = i \mathbf{n}_k = \mathbf{i} nk=i n k = − i \mathbf{n}_k = -\mathbf{i} nk=i及其 x x x坐标 h k h _k hk表示,如fig.3的左边所示。在最小化损失的过程中,我们固定每个权重的正常值,只调整其位置。此外,我们确定了 z k z_k zk的值,并在 n k = i \mathbf{n}_k = \mathbf{i} nk=i时令 z k = 1 z_k = 1 zk=1 n k = − i \mathbf{n}_k = -\mathbf{i} nk=i时令 z k = − 1 z_k = -1 zk=1 。如第4.3节所述, z k z_k zk的大小与确定真正的局部极小值的存在无关。固定它的符号相当于选择局部极小值的两个分支中的一个。因此,通过这一事实 w k ⋅ x i \mathbf{w}_k·\mathbf{x}_i wkxi等于从 x i \mathbf{x}_i xi w i \mathbf{w}_i wi距离 w k w k wk,我们有 R k ⋅ x i = z k w k ⋅ x i = x i − h k \mathbf{R}_k·\mathbf{x}_i = z_k\mathbf{w }_k·\mathbf{x}_i = x_i-h_k Rkxi=zkwkxi=xihk x i = x i ⋅ i x_i=\mathbf{x}_i·\mathbf{i} xi=xii

  权重输入空间分割成一系列的地区,如 Ω 1 , Ω 2 Ω_1,Ω_2 1,2 Ω 3 Ω_3 3在图3。每个地区位于两个相邻之间权重向量,并在每个地区 Ω j , I i k ( i ∈ Ω j ) Ω_j,I_{ik}(i∈Ω_j) j,Iik(ij)常量值,我们表示 I Ω j k I_{Ω_j k} Ijk。总损失可以写成:
在这里插入图片描述

  通过假设所有权向量都是平行的,我们将原来的问题简化为一维问题,这将大大简化后面讨论的概率计算。通过全局最优条件 ∂ L ∂ h k = 0 \frac{∂L}{∂h_k} = 0 hkL=0,我们可以推出以下线性系统,
在这里插入图片描述
F , f F, \mathbf{f} F,f分别是矩阵和向量,有以下元素,
在这里插入图片描述
N j N_j Nj是是区域 Ω j Ω_j j的样本数量。

  让我们先讨论两个权向量的简单情况,方向如图3右侧面板所示。在这种情况下,很容易得到线性系统(21)的解析解。(21)成为
在这里插入图片描述
   N 1 + N_{1 +} N1+是正面例子的数量在地区 Ω 1 Ω_1 1中, x ˉ 1 + \bar{x}_{1 +} xˉ1+ x x x坐标的平均 Ω 1 Ω_1 1中所有正样品,等等。假设正类和负类有等于先验(因此正负样本的数量是相等的),和的概率表示正(负)例子在区域 Ω j Ω_j j P j + ( P j − ) P _{j+} (P_{j−}) Pj+(Pj),(23)的解决方案如下
在这里插入图片描述
其中 x w 1 ∗ x_{w^*_1} xw1 w 1 ∗ \mathbf{w}_1^\ast w1 x x x 坐标。

  如果有两个以上的权向量,我们需要用P j+,P j−,¯x j+,¯x j−等来表示 F F F f \mathbf{f} f 来求解线性系统(21)。详见附录E.1。

在这里插入图片描述
图3:计算所有权向量并行时存在的局部极小值的概率。

7.2 高斯输入数据陷入可微局部极小值的概率

  现在,假设数据样本来自高斯分布。这意味着在每个有限区域内, p j + ≠ 0 , p j − ≠ 0 p_{j +} \ne 0, p_{j -} \ne 0 pj+=0,pj=0。因此, F F F是满秩的,(21)是唯一解。

   w 1 ∗ \mathbf{w}^*_1 w1 w 1 \mathbf{w}_1 w1 之间存在着间隙, w 2 ∗ \mathbf{w}^\ast_2 w2 w 2 \mathbf{w}_2 w2 之间也存在着间隙。如果没有样本存在于这些间隙中,那么当从 { w 1 , w 2 } \{\mathbf{w}_1, \mathbf{w}_2\} {w1,w2} 开始时,将会有一个真正的局部最小值,使局部搜索方法陷入其中。因此,假设 N N N个样本是独立同分布的,存在局部极小值的概率为
在这里插入图片描述
其中 P g P_g Pg是一个样本位于其中一个间隙的概率。使用 g 1 , g 2 , … , g k g1, g2,…,g_k g1,g2gk标注间隔区域,
在这里插入图片描述
  对于高斯分布,其依赖的 P g P_g Pg在这里插入图片描述的详细解析计算见附录E.2。

  由于 P t P_t Pt是指数消失的,所以存在局部极小值的概率是很小的,只要其中一个间隙足够大,其中有样本的概率是不可忽略的。这个结论仍然适用于不平行的权重向量和从其他分布中获得的数据,由于 w i ∗ \mathbf{w}^*_i wi w i \mathbf{w}_i wi通常会形成一个中间区域,其中样本的概率是非 0 0 0的。

  现有鞍点和不可微局部极小值的概率仍然指数消失,因为通常存在间隙。

7.3 实验结果

  在本小节中,我们进行了一些实验,以展示陷入可微局部极小值的概率有多大,以及它如何随权重向量的位置而变化。数据分布如图3右侧面板所示。正、负样本均来自对称的多元高斯分布,均值分别位于 x + = 1 x _+ = 1 x+=1 x − = − 1 x _- = - 1 x=1 处。将两种分布的协方差矩阵设为识别矩阵。 N N N设置为 100 100 100

  在第一个实验中,我们考虑了两个权向量的情况: w 1 \mathbf{w}_1 w1 w 2 \mathbf{w}_2 w2 。首先,我们使 x w 2 = 0 x_{\mathbf{w}_2} = 0 xw2=0 ,并在区间 [ 0 , 6 ] [0,6] [0,6] 内移动 w 1 \mathbf{w}_1 w1 。图4(a)显示了经验损失随 x w 1 x_{\mathbf{w}_1} xw1 的变化情况,其中明显存在全局最小值,且不存在糟糕的局部最小值。然后使用(24)计算 x w 1 ∗ x_{\mathbf{w}_1^\ast} xw1 x w 2 ∗ x_{\mathbf{w}_2^\ast} xw2 ,并计算用(25)到达局部最小值的概率。图4(b)显示了这个概率随 x w 1 x_{\mathbf{w}_1} xw1 的变化。对比图4(a)和图4(b),我们可以发现,在全局损失最小值处被困的概率确实很高,这证明了我们关于局部极小值处被困概率理论的正确性。当 x w 1 x_{\mathbf{w}_1} xw1 距离数据均值较远时,该概率接近 1 1 1,损失几乎为常数,对应于陷入平坦高原。这可以归因于这样一个事实,即虽然 x w 1 x_{\mathbf{w}_1} xw1 x w 1 ∗ x_{\mathbf{w}_1^\ast} xw1 之间仍然存在一个距离,但由于远离数据平均值时高斯密度的指数消失特性,样本处于这个距离的概率非常低。在权值空间的其他地方,由于样本在间隙中的概率很高,所以命中局部极小值的概率非常低。

在这里插入图片描述
图4:存在的局部极小值w.r.t的概率,两个权向量的位置。(a)移动某一权重时的经验损失情况。(b)移动其中一个权值时,存在局部极小值的概率。©移动两个权值时存在局部极小值的概率。

  然后我们考虑两个重物都可以移动的情况。图4c显示了移动两个权值时陷入局部极小值的概率。它实际上是两个独立移动 w 1 \mathbf{w}_1 w1 w 2 \mathbf{w}_2 w2 的概率的张量积。靠近原点的小峰对应全局最小值。如果权值离数据簇不是太远,那么陷入局部极值的概率就很低。这可能有助于解释为什么在训练神经网络时,用小数值随机初始化权值的常见做法会成功。

  对于多重权向量的情况也可以观察到类似的现象。我们在附录E.3中探讨了四个权向量的情况。结果表明,被困于局部极值点的概率仍然很低。由于对于连续的高斯数据分布不适用超参数化的概念,因此没有必要考虑权重大得多的情况。

  最后,我们讨论了离散数据的情况。如果(21)中的 F F F是秩亏的(附录E.1中讨论了一些典型的情形),则某些权值的最优位置不是唯一的,可以自由改变。然而,剩下的权值与它们唯一的最优解之间仍然存在差距,因此存在局部极值的概率很低。离散数据和参数化网络的情况可能有所不同。随着网络规模的增大,更多的权值具有自由的最优位置,因此可能与它们的定义单元发生非空交点,从而导致存在错误局部极小值的概率增加。

8、结论和未来工作

  摘要研究了单隐层ReLU网络的全局损失,包括可微局部极小值的全局性、存在可微和不可微局部极小值和鞍点的条件以及存在不良局部极小值的概率。

  在我们未来的工作中,我们感兴趣的问题如下:1)借鉴计算几何的思想,实现高效的相交算法,并对离散数据进行实验,以识别坏局部极小值的存在。2)深度ReLU网络的全局特点。

附录

A. 引理1和定理1的证明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值