Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.

@article{safran2017spurious,
title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},
author={Safran, Itay and Shamir, Ohad},
journal={arXiv: Learning},
year={2017}}

文章的论证部分让人头疼,仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:
∑ i = 1 k [ v i T x ] + , \sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+, i=1k[viTx]+,
其中 v i \mathbf{v}_i vi是给定的, 而 x ∼ N ( 0 , I ) \mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) xN(0,I). 而这篇文章考虑的是:
在这里插入图片描述
即, 这个损失函数是否具有局部最优解.

主要内容

定理1

在这里插入图片描述
注意, v 1 , v 2 , … , v k \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k v1,v2,,vk是正交的, 且 n = k n=k n=k. 这个时候,损失函数是有局部最优解的, 不过在后面作者提到, 如果 n > k n>k n>k, 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).

推论1

在这里插入图片描述

引理1 引理2

这部分有些符号没有给出, 如果感兴趣回看论文, 这俩个引理是用来说明, 如何在实验中, 通过一些指标来判断是否收敛到某个极值点了(当然, 这需要特别的计算机制来避免舍入误差带来的影响, 作者似乎是通过Matlab里的一个包实现的).
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值