预测分析：R语言实现2.7　正则化

最新推荐文章于 2024-08-07 16:30:29 发布

weixin_34384681

最新推荐文章于 2024-08-07 16:30:29 发布

阅读量1.2k

点赞数

文章标签： r语言数据结构与算法人工智能

原文链接：https://yq.aliyun.com/articles/82045

版权

本文介绍了正则化在预测分析中的作用，特别是R语言中的岭回归和lasso方法。岭回归通过引入惩罚项减少模型方差，而lasso则通过惩罚项的绝对值实现系数收缩和特征选择。在R中，可以使用glmnet包进行正则化模型的训练和优化，通过交叉验证选择最佳的正则化参数。

摘要由CSDN通过智能技术生成

2.7　正则化

变量选择是一个重要的过程，因为它试图通过去除与输出无关的变量，让模型解释更简单、训练更容易，并且没有虚假的关联。这是处理过拟合问题的一种可能的方法。总体而言，我们并不期望一个模型能完全拟合训练数据。实际上，过拟合问题通常意味着，如果过分拟合训练数据，对我们在未知数据上的预测模型精确度反而是有害的。在关于正则化（regularization）的这一节，我们要学习一种减少变量数以处理过拟合的替代方法。正则化实质上是在训练程序中引入刻意的偏误或约束条件，以此防止系数取值过大的一个过程。因为这是一个尝试缩小系数的过程，所以我们要观察的这种方法也称为收缩方法（shrinkage method）。

2.7.1　岭回归

当参数的数量非常大的时候，尤其是和能获得的观测数据的数量相比很大时，线性回归往往会表现出非常高的方差。这也就是说，在一些观测数据中的微小变化会导致系数的显著变化。岭回归（ridge regression）是一种通过其约束条件引入偏误但能有效地减小模型的方差的方法。岭回归试图把残差平方和（RSS）加上系数的平方和乘以一个用希腊字母表示的常数构成的项（∑2）的累加和最小化。对于一个带有k个参数的模型（不包括常数项0）以及带有n条观测数据的数据集，岭回归会使下列数量最小化：

在这里，我们还是想把RSS最小化，但第二个项是惩罚项，当任何系数很大时它也会很大。因此，在最小化的时候，我们就会有效地把系数压缩到更小的值。参数被称为元参数（meta paramete

最低0.47元/天解锁文章

weixin_34384681

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
预测分析：R语言实现2.7　正则化

2.7　正则化变量选择是一个重要的过程，因为它试图通过去除与输出无关的变量，让模型解释更简单、训练更容易，并且没有虚假的关联。这是处理过拟合问题的一种可能的方法。总体而言，我们并不期望一个模型能完全拟合训练数据。实际上，过拟合问题通常意味着，如果过分拟合训练数据，对我们在未知数据上的预测模型精确度反而是有害的。在关于正则化（regularizatio...
复制链接

扫一扫