从 0 开始机器学习 - 正则化技术原理与编程!

最新推荐文章于 2024-09-14 19:18:15 发布

登龙

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量327

点赞数

分类专栏：机器学习文章标签：机器学习正则化 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cdeveloperV/article/details/105880833

版权

本文介绍了正则化技术，一种用于解决机器学习模型过拟合问题的方法。通过实例解释了过拟合与欠拟合，并探讨了正则化在假设函数和代价函数中的作用，以及正则化系数λ的影响。最后，提供了线性回归和逻辑回归的正则化代码实战。

摘要由CSDN通过智能技术生成

之前学习了线性回归，逻辑回归和梯度下降法，今天学习的这个技术能够帮助我们训练的模型对未知的数据进行更好的预测 - 正则化技术！

快来一起学习学习，学习使我快乐 (^▽)！

一、正则化是什么？

正则化（Regulariation）这 3 个字听起来挺高大上的，其实就是一种解决机器学习过拟合问题的技术，使用这项技术可以让我们在训练集上训练的模型对未知的数据也能很好地拟合。

机器学习模型对未知数据的拟合能力又称为泛化能力，泛化能力比较好的模型，对未知数据拟合的也比较不错，如果对训练数据产生过拟合（over-fitting）问题，那泛化能力也会变差。

当出现过拟合问题后，处理的方式有 2 种：

降维：减少特征数量，把模型多项式阶数降低，这样高阶项就少了，模型曲线就不会那么复杂
正则化：不直接减少特征，而是增大代价函数中特征参数的系数

我们今天要介绍的就是正则化技术，下面用个例子先来说明什么是过拟合与欠拟合。

二、过拟合 VS 欠拟合

2.1 线性回归例子

这里还以预测房价为例，分别解释以下 3 种情况：

欠拟合：模型选择的特征数量太少（2 个），不能对训练数据很好地拟合，会产生高偏差
正常拟合：模型选择的特征数量合适（3 个），能对训练数据拟合较好
过拟合：模型选择的特征数量过多（5 个），对训练数据过度拟合，会导致高方差

在实际应用中，通常选择的特征会比较多，很容易出现过拟合，所以解决这个问题很有必要。

2.2 逻辑回归例子

逻辑回归问题同样会产生过拟合与欠拟合问题，比如这个分类问题：

这里忘记注释类型了，不过原理一样：

欠拟合：用直线分类，一看就不合适，因为直观来看决策边界是圆弧形状
正常拟合：决策边界是圆弧形状，拟合的效果比较好
过拟合：决策边界分类的太严格了，在未知样本上的预测效果很差

简单总结下：模型的参数越多，使用的多项式次数（ $x^n$ ）就越大，模型曲线就越复杂，这些高阶次的项会导致过拟合问题。

这个正则化技术要解决过拟合问题的实质就是：减小高阶次项对模型整体的影响，以此来提高模型对未知样本的预测能力。

因为我们在训练数据上训练出的模型，最终是要用到未知的样本中的，不然就失去工程应用的意义了。OK，那下面就来正式学习下这个技术的原理，其实很容易，就是在代价函数后面加上一个正则化项公式。

三、正则化原理

3.1 在假设函数中理解正则化

我还以预测房价的例子来说明正则化技术的原理，模型的假设函数如下：

$h_\theta( x )=\theta_0 + \theta_1 x_1 + \theta_2 x_{2}^2 + \theta_3 x_{3}^3 + \theta_4 x_{4}^4$

假如 $\theta_3$ 表示房屋厨房面积， $\theta_4$ 表示房屋的地理位置，这两个特征导致模型阶次太高（ $x_3^3, x_4^4$ ），我想减少它俩对假设函数的影响，也就是说我想在代价函数求得最优值后，得到的最优特征向量中这 2 个参数尽可能趋向于 0，这样上面的模型就变成：

$h_\theta( x )=\theta_0 + \theta_1 x_1 + \theta_2 x_{2}^2 + 0 * x_{3}^3 + 0 * x_{4}^4$

注意了：这里只是将 $\theta_3 -> 0$ ， $\theta_4 -> 0$ ，而并不是让他们直接等于 0，因为我们是正则化不是降维，通过将这 2 个参数趋向于 0 使得他们的高阶次项可以忽略不计，就能得到减少 $x_3, x_4$ 对原模型的影响了。

用个机器学习的术语来说就是：通过正则化技术来惩罚 $\theta_3$ 和 $\theta_4$

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。