文 / Google AI 团队 Yiding Jiang
深度神经网络 (DNN) 是近年来机器学习研究进展的基础,也是在图像识别、图像分割、机器翻译等诸多领域能够取得突破性进展的重要原因。
尽管 DNN 无处不在,研究人员仍在尝试全面了解深度神经网络的基本原理。例如,传统理论(如 VC 维和 Rademacher 复杂度)认为:在处理未知数据时,过参数化函数 (over-parameterized functions) 的泛化能力较差;但在近期研究中却发现,大规模过参数化的函数(参数比数据点多出几个数量级)却拥有出色的泛化能力,更深层次地地理解泛化对于理论的落地和DNN理论的实现从而改进模型是很有必要的。
注:近期研究 链接
https://arxiv.org/pdf/1611.03530.pdf
在理解泛化之前,我们需了解 Generalization Gap(泛化性能差异)这一重要概念。泛化性能差异即模型针对相同分布的训练数据和未知数据所表现出的性能差异。在致力获得更好的 DNN 泛化边界(即泛化性能差异的上限)的过程中,研究人员取得了重大进展。但是,这类边界通常仍会大大高估真实的泛化性能差异水平,并且无法解释部分模型为何具有出色的泛化能力。
另一方面,