【机器学习基础】正则化

最新推荐文章于 2022-06-10 22:33:14 发布

JasonDing1354

最新推荐文章于 2022-06-10 22:33:14 发布

阅读量2.2k

点赞数

分类专栏：【Machine Learning】文章标签： machine learning

本文链接：https://blog.csdn.net/jasonding1354/article/details/44006935

版权

本文探讨了机器学习中的正则化技术，旨在解决过拟合问题。通过介绍Ridge Regression和L1、L2 Regularizer，阐述了不同λ值对模型的影响，以及正则化如何与VC理论相结合。文章强调了正则化在降低模型复杂度、提高泛化能力方面的重要性，同时提供了λ选择的初步指导。

摘要由CSDN通过智能技术生成

引言

上一小节中，我们介绍了过拟合的概念，在机器学习中最大的危险就是过拟合，为了解决过拟合问题，通常有两种办法，第一是减少样本的特征（即维度），第二就是我们这里要说的“正则化”（又称为“惩罚”,penalty）。

从多项式变换和线性回归说起

在非线性变换小节中，我们有讨论Q次多项式变换的定义和其包含关系，这里如果是10次多项式变换，那么系数的个数是11个，而2次多项式的系数个数是3。从中我们可以看出，所有的2次多项式其实是10次多项式加上一些限制，即w3=w4=...=w10=0。

基于上面的讨论，我们希望能将二次多项式表示成十次多项式再加上一些约束条件，这一步的目的是希望能拓宽一下视野，在推导后面的问题的时候能容易一些。
这个过程，我们首先要将二次多项式的系数w拓展到11维空间，加上w3=w4=...=w10=0这个条件得到假设集合H2；然后为了进一步化简，我们可以将这个条件设置的宽松一点，即任意的8个wi为0，只要其中有三个系数不为0就行，得到一组新的假设空间H2'，但这个问题的求解是一个NP-hard的问题，还需要我们修正一下；最后，我们还需要将这个约束条件进一步修正一下得到假设集合H(C)，给系数的平方的加和指定一个上限，这个假设集合H(C)和H2'是有重合部分的，但不相等。
最后，我们把H(C)所代表的假设集合称为正则化的假设集合。
下图表示了这个约束条件的变化：