《VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS》论文解析

最新推荐文章于 2024-06-08 09:57:56 发布

wayen820

最新推荐文章于 2024-06-08 09:57:56 发布

阅读量2.6k

点赞数

引言

神经网络的损失函数是一个高度非凸的函数，神经网络的训练在于我们能否在这个高度非凸的函数里找到最小值。总所周知，某些网络（如带skip connections)会比较容易训练，超参数(批量大小，学习率，优化器）选择的合适，会使得模型泛化能力更高。但是，造成这些区别的原因究竟是什么？他们对损失函数的曲面造成什么影响，都是不太清楚的。

这篇论文里，我们使用可视化的方法，探索了损失函数的结构和损失函数曲面对泛化性能的影响。首先我们介绍了一个简单的“filter normalization"方法来帮助我们可视化损失函数弯曲面，和然后利用这个对各种不同损失函数做有意义的比较；然后，我们用各种可视化方法，来探索网络结构如何影响损失曲面，及训练超参数如何影响最小点的形状。

介绍

训练神经网络需要最小化一个高维非凸的损失函数-理论上一直都是很难的任务，但有时实际中又很容易做到。尽管训练通用神经网络存在NP问题，简单的梯度方法常常可以找到全局最小（零或者近似零），甚至在数据和标签都是随机的。但是这个良好特效并不是普遍存在的。神经网络的可训练性高度依赖网络架构设计，优化器选择，初始化方法和各种各样的其他考虑。不幸的是，这些选择对底层的损失函数曲面结构的影响是不太清楚的。因为对损失函数评估的巨大代价（需要循环训练数据上面的所有点），这方面的研究一直停留在理论层面。

我们使用高度可视化方法来提供神经网络损失函数的一些经验性特征，探索网络架构的选择如何影响损失函数曲面。更进一步，我们探索了神经网络损失函数的非凸结构如何影响可训练性，神经网络的极小点的几何形状（尖锐/平滑，周围地形）如何影响他们的泛化性能。

为了做到这一点，我们提出了一个简单的”filter normalization"的方法来比较神经网络不同优化方法找到的最小点，可视化来比较他们的锐度/平滑，也比较了网络结构选择对损失函数曲面的影响（使用skip connections,不同的filter数量，不同的网络深度）。我们的目的是为了了解损失函数几何形状如何影响神经网络的泛化性能。

理论背景和相关工作

略

损失函数可视化基础

神经网络训练就是最小化下面公式：

其中θ是网络参数权重，xi，yi是训练数据，m是训练数据集数量，表示着网络如何

wayen820

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS》论文解析

引言神经网络的损失函数是一个高度非凸的函数，神经网络的训练在于我们能否在这个高度非凸的函数里找到最小值。总所周知，某些网络（如带skip connections)会比较容易训练，超参数(批量大小，学习率，优化器）选择的合适，会使得模型泛化能力更高。但是，造成这些区别的原因究竟是什么？他们对损失函数的曲面造成什么影响，都是不太清楚的。这篇论文里，我们使用可视化的方法，探索了损失函数的结构和损...
复制链接

扫一扫