Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

最新推荐文章于 2020-02-21 16:49:20 发布

MTandHJ

最新推荐文章于 2020-02-21 16:49:20 发布

阅读量239

点赞数

分类专栏： neural networks

本文链接：https://blog.csdn.net/MTandHJ/article/details/103534296

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

文章目录

Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.

@article{safran2017spurious,
title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},
author={Safran, Itay and Shamir, Ohad},
journal={arXiv: Learning},
year={2017}}

引

文章的论证部分让人头疼，仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:
$\sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+,$
其中 $\mathbf{v}_i$ 是给定的, 而 $\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ . 而这篇文章考虑的是:
在这里插入图片描述
即, 这个损失函数是否具有局部最优解.

主要内容

定理1

在这里插入图片描述
注意, $\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k$ 是正交的, 且 $n = k$ . 这个时候，损失函数是有局部最优解的, 不过在后面作者提到, 如果 $n > k$ , 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).