一切要从overfitting(简称OF)和网络的generalization capability(简称GC)能力说起。
overfitting是因为网络的繁华能力不足。
从有限的训练集期待学到具有无限表达能力的网络,本来就是伪命题,“infinite use by finite means”,所以overfitting是一件不可根除,只能减轻的事情。因为相比于无穷的待测试空间,训练集空间总是有限的。模型总是会太过于fit到训练集上,因为一个模型又怎么可能太过于fit到无穷的待测世界呢?非一则二,所以overfit是必然。
怎么减轻overfit呢?老生常谈的话很多,比如用小模型(不推荐,模型越大其functional capacity越大,是好事,所以总是都先考虑其他方法来控制overfitting)、增大数据、加regularization,等等等等。但是这都是治标不治本的事情。
那么本是什么呢?即,一个模型的generalization capability如何提高?Relational Inductive Bias(RIBs)关系性推断偏好,是一种直接提高模型GC的事物。RIBs指的是网络本身设计时所impose的一些特质、服从的一些规则。这些规则约束了网络可能呈现的样子和形式,即相比于原本暴力地pure data-driven的、完全依赖和相信训练数据的、忽视网络可以服从的一些自然界存在的先验信息的训练,将训练的过程变得更加可控,更加符合自然规律。即,将训练的起点定地更贴近与终点。或者,网络的训练可以理解为在一个高维的参数空间选择一个最好