Neural Networks的regularization技巧：谈谈网络的泛化能力与noise、Inductive Bias的关系

最新推荐文章于 2024-06-24 09:13:22 发布

Trasper1

最新推荐文章于 2024-06-24 09:13:22 发布

阅读量2.3k

点赞数 8

分类专栏：机器学习神经网络正则化泛化能力 inductive 文章标签：泛化能力 overfit inductive bias 正则化

本文链接：https://blog.csdn.net/Trasper1/article/details/82260278

版权

本文探讨了过拟合与网络泛化能力的关系，指出Relational Inductive Bias（RIBs）对于提高模型的泛化能力至关重要。RIBs通过约束网络结构和引入先验知识，避免过度拟合训练集中的高频噪声。L2正则化、L1正则化、Max Norm和Dropout等技术是通过不同方式减少噪声影响，增强模型的泛化性能。

摘要由CSDN通过智能技术生成

一切要从overfitting（简称OF）和网络的generalization capability（简称GC）能力说起。

overfitting是因为网络的繁华能力不足。

从有限的训练集期待学到具有无限表达能力的网络，本来就是伪命题，“infinite use by finite means”，所以overfitting是一件不可根除，只能减轻的事情。因为相比于无穷的待测试空间，训练集空间总是有限的。模型总是会太过于fit到训练集上，因为一个模型又怎么可能太过于fit到无穷的待测世界呢？非一则二，所以overfit是必然。

怎么减轻overfit呢？老生常谈的话很多，比如用小模型（不推荐，模型越大其functional capacity越大，是好事，所以总是都先考虑其他方法来控制overfitting）、增大数据、加regularization，等等等等。但是这都是治标不治本的事情。

那么本是什么呢？即，一个模型的generalization capability如何提高？Relational Inductive Bias（RIBs）关系性推断偏好，是一种直接提高模型GC的事物。RIBs指的是网络本身设计时所impose的一些特质、服从的一些规则。这些规则约束了网络可能呈现的样子和形式，即相比于原本暴力地pure data-driven的、完全依赖和相信训练数据的、忽视网络可以服从的一些自然界存在的先验信息的训练，将训练的过程变得更加可控，更加符合自然规律。即，将训练的起点定地更贴近与终点。或者，网络的训练可以理解为在一个高维的参数空间选择一个最好