Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach
设计具有通用逼近能力的深度神经网络:一种一阶优化方法
Zhoutong Wu; Mingqing Xiao; Cong Fang; Zhouchen Lin
摘要
通用逼近能力,也称为通用性,是深度神经网络的一项重要特性,使其能够在学习任务中准确表示潜在的目标函数。实际上,深度神经网络的架构很大程度上影响模型的性能。然而,大多数现有的神经网络架构设计方法,如启发式手动设计或神经架构搜索,忽略了通用逼近属性,从而失去了对性能的潜在保障。在本文中,我们提出了一个基于一阶优化算法的统一框架,用于设计具有通用性保证的深度神经网络架构,其中前向传播被解释为优化算法的更新过程。网络(显式或隐式)通过将算法中的每个梯度项替换为类似于两层网络或其衍生物的可学习模块来设计。特别是,我们探索了一个实际应用场景——宽度受限的神经网络,并展示了它们的通用性。此外,添加归一化、降采样和上