Neural Networks的regularization技巧:谈谈网络的泛化能力与noise、Inductive Bias的关系

本文探讨了过拟合与网络泛化能力的关系,指出Relational Inductive Bias(RIBs)对于提高模型的泛化能力至关重要。RIBs通过约束网络结构和引入先验知识,避免过度拟合训练集中的高频噪声。L2正则化、L1正则化、Max Norm和Dropout等技术是通过不同方式减少噪声影响,增强模型的泛化性能。
摘要由CSDN通过智能技术生成

一切要从overfitting(简称OF)和网络的generalization capability(简称GC)能力说起。

overfitting是因为网络的繁华能力不足。

从有限的训练集期待学到具有无限表达能力的网络,本来就是伪命题,“infinite use by finite means”,所以overfitting是一件不可根除,只能减轻的事情。因为相比于无穷的待测试空间,训练集空间总是有限的。模型总是会太过于fit到训练集上,因为一个模型又怎么可能太过于fit到无穷的待测世界呢?非一则二,所以overfit是必然。

怎么减轻overfit呢?老生常谈的话很多,比如用小模型(不推荐,模型越大其functional capacity越大,是好事,所以总是都先考虑其他方法来控制overfitting)、增大数据、加regularization,等等等等。但是这都是治标不治本的事情。

那么本是什么呢?即,一个模型的generalization capability如何提高?Relational Inductive Bias(RIBs)关系性推断偏好,是一种直接提高模型GC的事物。RIBs指的是网络本身设计时所impose的一些特质、服从的一些规则。这些规则约束了网络可能呈现的样子和形式,即相比于原本暴力地pure data-driven的、完全依赖和相信训练数据的、忽视网络可以服从的一些自然界存在的先验信息的训练,将训练的过程变得更加可控,更加符合自然规律。即,将训练的起点定地更贴近与终点。或者,网络的训练可以理解为在一个高维的参数空间选择一个最好

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值