关于正则技术的论文,主要有:
1.仅对传统机器学习中,正则项的总结,包括对向量正则,和矩阵的正则
2.提出了广义正则的概念,对于减少过拟合,提高泛化性能的策略统称为正则技术。
第一篇:A survey of regularization strategies for deep models(2019)
机器学习中很重要一点就是让一个算法有泛化性。没有免费午餐定理暗示了对于特定学习任务要有自己的算法设计。有一个调整算法适应问题的策略:核心是泛化能力的提升。
2015 Peng的一篇论文:
1.正则化可以帮助泛化
2.l2惩罚没有预期中有用
3.正则项表现依赖于数据集尺寸。
4.L2惩罚主要起局部作用,超参数可以逐步调整。
5.结合dropouot与l2,可以提高泛化。
一、过拟合的定义:风险在训练集误差小,测试集误差大。
偏差和方差的例子
图1通过向棋盘投掷飞镖来说明这一点。当两个类之间的边界不是一个被诱导的超平面时,线性学习者具有高偏差。另一方面,深度模型没有这个问题,因为它们可以表示复杂的函数,但是它们有高方差。例如,基于同一现象的不同训练集学习的深度卷积网络,经常发现模型的可学习参数值非常不同。
防止过拟合的一个方法是:交叉验证。例如,通过惩罚空间更大的分类器,偏向空间更小的较小分类器,可以避免过度拟合。
正则方法在保护深度模型免于过度拟合方面起着至关重要的作用,几乎所有深度模型都具有某种正则化以处理其高维参数空间的复杂性。
二、高维空间的正则化
随着维数的增加,越来越多的例子成为典型样本的最近邻。换句话说,多元高斯分布的大部分质量不在平均值附近,而是在它周围一个越来越远的“壳”中。许多人觉得可能会认为收集更多的特征没有坏处。但是“维度诅咒”带来了坏处。
有一种效果可以部分抵消这种诅咒,这可以称为“不均匀”。 例如在视觉,语音和自然语言处理之类的大多数应用中,示例不会在实例空间中均匀分布,而是集中在低维流形上或其附近。
三、正则化技术
1.权重衰减:包括稀疏表达,贝叶斯解释,添加约束
2.添加噪声:噪声可以添加