论文解读 | NeurIPS2023：通过损失路径核分析神经网络的泛化

AITIME论道

于 2024-01-08 17:30:31 发布

阅读量1.1k

点赞数

文章标签：神经网络人工智能深度学习机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247521333&idx=1&sn=51d596e77c7003e110bff445914050be&chksm=e870f13459ea20c54f80529bc069a409370daf2e24da9a80a18e8362618aebe63e1a682e5d3e&scene=126&sessionid=0

版权

本文探讨了深度神经网络的泛化能力，提出了一种新的核函数——损失路径核，它衡量了数据点沿梯度流路径的损失一致性。作者通过这一理论建立了神经网络与核机器之间的等价性，并给出了适用于一般网络架构的泛化界限。研究结果被应用于神经架构搜索中，显示出优于现有算法的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

讲者简介

陈一览

个人简介

加州大学圣地亚哥分校二年级博士生，研究方向为深度学习的理论以及应用

个人主页

https://chenyilan.net/

论文链接

https://neurips.cc/virtual/2023/poster/72664

Title

通过损失路径核分析神经网络的泛化

Content

内容简介

深度神经网络在现实世界的应用越来越广泛，因此确保它们对新的、未曾见过的数据具有良好的适应能力变得至关重要。本文研究了使用（随机）梯度流训练的神经网络的泛化能力。作者通过提出一种新的核函数，称为损失路径核，建立了梯度流的损失动态与核机器之间的新联系。该核通过评估沿着梯度流确定的路径上的损失梯度的一致性来衡量两个数据点之间的相似性。基于这一关联，作者得到了适用于一般神经网络架构的新的泛化上界。这个新的上界是紧致的，并与真实的泛化误差强相关。本文将这些结果应用于指导神经架构搜索（NAS）的设计，并通过数值实验证明了与最先进的NAS算法相比的有利性能。

Introduction and motivation

Kernel machine and neural tangent kerne

核函数（Kernel function）是机器学习中的一个重要概念，被用来计算原始输入空间或更高维空间中对数据点对之间相似性的度量，而不需要显式计算转换。其思想是在不计算实际转换的情况下，隐式地表示数据在更高维度的空间中。

核机器（Kernel machine）的基本思想是，在高维空间中，数据可能更容易分隔或呈现出更明显的模式，而核函数提供了一种有效的方式来利用这种潜在的高维表示，而无需实际进行映射。这种方法在处理非线性问题和具有复杂结构的数据时特别有效。

Neural Tangent Kernel（NTK，神经切向核）最初由Arthur Jacot等人在2018年的一篇论文中提出。它的主要思想是将深度神经网络在训练初期近似为一个线性模型，并通过引入核函数的方式来描述在参数空间中的相似性，这为理解神经网络的训练过程提供了一种更简化和可解释的框架。

Kernel regression with NTK结合了核回归和NTK的思想，旨在利用核函数来描述输入样本之间的相似性，并通过NTK的线性化近似来理解神经网络回归任务。

还有一些工作中证明了宽度较大的神经网络在参数空间中近似呈线性。这些等价关系对于分析神经网络很有用，但仅适用于无穷宽度或超宽神经网络。此时，作者提出一个新的问题：我们能否在普通神经网络（相对于超宽神经网络）和核方法之间建立联系或等价性？

Generalization theory of neural networks

神经网络的泛化理论旨在理解神经网络在训练集之外的数据上的表现。泛化能力指的是模型对新样本的适应能力，而泛化理论试图解释网络为什么在未见过的数据上能够表现良好。

VC维度（VC dimension）的主要思想是通过考虑在给定假设类中所有可能的样本集合时，该类能够以多少种不同的方式进行分类。它帮助我们理解模型的复杂性和学习能力之间的平衡。更低的VC维度通常与更好的泛化性能相关联，因为模型对于训练数据之外的样本具有更强的概括能力。

Norm-based bounds是机器学习中用于分析模型泛化性能的一种理论框架。该理论关注通过对模型参数的范数进行约束，从而推导出关于模型泛化误差的上界。通过对模型参数的规范化，Norm-based bounds试图限制模型的复杂性，从而提高其在未见数据上的性能。这一理论框架有助于理解正则化在控制过拟合方面的作用，为设计更健壮的机器学习模型提供了指导。

但是上述的工作并未解释过参数化神经网络的泛化能力，此外，这些bounds过于庞大，在实际应用中并没有很大的价值。

Motivation of this work

该篇工作的研究问题有两点：第一，能否在一般神经网络（相对于超宽神经网络）和核机器之间建立联系或等价性？第二，能否为一般神经网络（相对于超宽神经网络）建立紧密的（相对于虚无的）泛化界限？在文章中，作者给出了肯定的答案。

Intuition of our work

在实验中，被训练的神经网络集合𝒢_T可能远小于整个神经网络函数类，作者通过神经网络与核机器之间的关系来分析神经网络的泛化。

Main results

Loss path kernel and equivalence between NN and KM

此处作者定义了两个新的Kernel，分别是Loss Tangent Kernel (LTK)与Loss Path Kernel (LPK)。LTK是通过计算两个向量之间的内积来定义的，它实际上在比较两个输入z=(x, y)和z’=(x’, y’)在模型权重微小变化下对损失函数影响的相似度。LPK计算的是训练过程中LTK的积分。

文中作者展示了有趣的实验结果。如果使用grident flow来训练神经网络，loss function等价于kernel machine，加上Loss function初始化的函数，其中的系数是固定的。gradient flow通过迭代更新参数以最小化目标函数，当学习率非常小的时候，这个过程可以近似为梯度流的连续过程。简单来说，梯度下降就是不断调整参数以减少误差，而梯度流则是这个过程的理想化连续表示。

对于随机梯度流（Stochastic gradient flow），有类似的结论。下图公式展示了损失函数的定义，该函数是通过对每个数据批次索引的梯度求和来计算的。此外，图中还显示了随机梯度下降（SGD）的连续极限表示形式，即当步长趋向于无穷小时，参数更新的微分方程。

Generalization bound for NN trained by (stochastic) gradient flow

本文中，作者介绍了一个泛化界限。这个界限是通过分析不同训练集生成的核机器函数类的Rademacher复杂度得到的，而这些训练集受到限制的是它们的再生核希尔伯特空间（RKHS）范数。

下图中公式定义了一组特定的核函数K_T，这些核函数满足集合S′中样本点的核函数值之和的平均值的平方小于某个常数B的平方。其中，S′是从μ分布中抽取的n个样本点的集合，而μ(n)是这些样本的联合分布，集合S是训练数据集。

𝒢_T是一类通用的kernel machine，K_T中所有不同核的集合。函数g(z)是𝒢_T的一个元素，它是从可能的数据集S′中训练得到的。

𝒢_T比所有神经网络的集合要小很多。下图展示了神经网络（NNs）函数类的一个子集𝒢_T与整个神经网络函数类的关系。图中的蓝色区域代表所有神经网络函数的集合，而灰色区域𝒢_T是相对较小的一部分，代表神经网络可能被训练到的函数集合。这个子集是通过神经网络和核机器之间的联系来定义的。图中还标出了两个点，ℓ(w₀,z)是起始点，而ℓ(w_T,z)表示经过训练后模型的损失函数。箭头显示了从初始模型到训练后模型的转变路径，这一路径位于𝒢_T子集内。

下文展示了如何计算神经网络函数子集𝒢_T的Rademacher复杂度，这是一种衡量函数集在给定数据集上复杂性的方法。文中首先提出一个界限公式，说明了期望损失Lµ(w)和经验损失Ls(w)之间的差距不会超过U₁和U₂两者中较小的一个的两倍。

其中，U₁代表在集合K_T中所有核函数对某个固定集合S′的评估结果的最大值，这个评估结果是根据训练轨迹上的损失梯度的最大幅度来计算的。另一个量Δ(z_i,z_j)表示核函数在K_T中的变化范围，这是通过计算核函数的最大值和最小值的差的一半来得到的。

覆盖数是度量函数集复杂性的一个工具，它告诉我们需要多少个小球才能覆盖整个函数集，每个小球的半径由ϵ确定。下图中给出了一个界限公式，说明了期望损失Lµ(w)与经验损失Ls(w)之间的差距不会超过U₁和U₂中较小者的两倍。其中，U₂是通过最小化一个关于ϵ的表达式得到的，这个表达式涉及到的覆盖数N(⋅)。是由𝒢_T在特定训练集Z上评估得到的函数集。

如果训练数据的梯度流损失动态变化不大，那么U₂将会很小，这表明模型在新数据上的表现会很稳定。此外，U₁，U₂可以用训练样本来估计，并且可以用来分析特定情况下的随机梯度流。

如下表，本文提出的泛化界限是紧凑的，并且可以适用于广泛的神经网络架构，并不仅限于超宽神经网络。

图(a)展示了5个随机选取的训练样本对于梯度流训练的神经网络（NN GF）、梯度下降训练的神经网络（NN GD）以及一般核机（KM）的逻辑损失动态。神经网络GF和KM的动态重合，从而验证了等价性。NN GF和NN GD在整个训练过程中保持一致，非常接近。图(b)展示了NN GF的训练损失、测试损失、测试误差以及Lµ(𝜔_T)的上界。图(c)表明，复杂性界限是泛化间隙Lµ(𝜔_T)-Ls(𝜔_T)很紧致的上界。它首先增加，然后在足够的训练时间后趋于收敛。

Case study

Ultra-wideNN

作者还将bound应用到一个特殊情况中，即无限宽的神经网络，展示了对于具有常数神经切空间核（NTK）的无限宽度神经网络，期望损失与训练损失之间的差值的一个上界。这个界限取决于损失函数的利普希茨常数、一组参数的乘积，以及训练数据点的梯度。它提供了一个比较简洁的泛化误差评估，不依赖于神经网络层数或是否有多个输出。

这个界限与Cao&Gu在2019年提出的界限进行了比较，本文的结果与网络层数L无关，并且适用于有多个输出的NN。

Application

Neural architecture search

图中的内容是一个简化自随机梯度流界限的公式，用于估计总体损失或测试损失。公式中的U_sgd是一个求和式，累加了每个时间步t下，训练批次S_t上核函数K_t,t+1评估值的平均。这个估计可以用来计算泛化误差Gene(w,S)，即训练损失L_s(w)加上两倍的U_sgd。这个泛化误差的计算可以在训练过程中进行。

下图显示了Gene(w,S)和CIFAR-100数据集在第1和第2个epoch的测试误差之间的相关性，表明Gene(w,S)是一个有效的性能指标。这个指标被用于NAS，以在训练初期选择架构，显著减少与训练基础NAS相比的计算成本。这种方法通过在NAS中使用Gene(w,S)作为一个度量，有效地减少了计算成本。