理解神经网络函数高频成分的收敛率界限

本文探讨了神经网络在拟合目标函数时遵循的频率原则,即从低频到高频的拟合顺序。研究了深度神经网络输出函数在傅里叶域的衰减特性,通过Fourier域变分问题分析了频率衰减的上界,并通过数值实验验证了理论结果。这有助于理解神经网络在高频函数学习上的表现,并为设计更有效的加速算法提供了理论基础。
摘要由CSDN通过智能技术生成

©作者 | 王志伟、罗涛、许志钦

单位 | 上海交通大学

神经网络的频率原则

深度神经网络(DNN)在监督学习问题上展现出了其广泛的应用前景。近期的一系列的研究表明,神经网络的输出关于频率存在一种隐式偏差,即神经网络在训练过程中,往往会从低频到高频拟合目标函数的训练集,如下图所示。我们将这一现象称为频率原则(更加详细的介绍请参考 F-Principle:初探深度学习在计算数学的应用和 F-Principle:初探理解深度学习不能做什么)。

▲ 红色为目标函数的傅里叶变换,蓝色为 DNN 输出的傅里叶变换,每一帧表示一个训练步,横坐标是频率,纵坐标是振幅。

在测试集上,从众多满足训练误差最小的解中,过参数化的神经网络由于频率原则会倾向于选择低频成分占主导的函数,即经过 Fourier 变换后,较大的系数主要集中在低频项。由于真实数据往往是低频占主导的,因此神经网络在真实数据上往往具有不错的泛化性。

一个自然的问题是,神经网络输出函数的 Fourier 变换关于频率的衰减具有什么样的特性?能否设计算法来加速神经网络输出函数与目标函数的 Fourier 系数误差随频率增大而衰减的速度?如果可以,最多能加速到多少?

研究这样的问题可以使我们更好地了解神经网络在拟合高频函数(即 Fourier 变换后,较大的系数主要集中在高频项的函数)时的表现,从而设计更加有效的算法加速高频函数收敛,扩大神经网络的应用范围。

论文标题:

An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network

论文作者:

Tao Luo, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang

论文链接:

https://arxiv.org/abs/2105.11675

Fourier域变分问题与其适定性条件

为回答上述一系列问题,我们设想能否从神经网络出发,抽象出一个监督学习的算法框架,通过研究该框架中输出函数的性质来推导神经网络的相关性质。

有关研究表明,一个以 ReLU 为激活函数的两层的无穷宽神经网络(为方便,设置初始网络输出函数为 0),其训练终止时的输出函数  满足以下变分问题:

其中 是数据的输入维度, 为依赖网络的初始化参数的常量, 表示的 Fourier 变换,

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值