正则化解决过拟合问题

最新推荐文章于 2024-01-25 19:23:35 发布

mm_bit

最新推荐文章于 2024-01-25 19:23:35 发布

阅读量2k

点赞数

分类专栏：数据挖掘文本处理机器学习分类算法文章标签：数据挖掘过拟合正则化

本文链接：https://blog.csdn.net/mm_bit/article/details/47007403

版权

数据挖掘文本处理同时被 2 个专栏收录

17 篇文章 2 订阅

订阅专栏

机器学习分类算法

11 篇文章 1 订阅

订阅专栏

关于正则化，以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述：

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。
正则化符合奥卡姆剃刀(Occam's razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率。
为了解决过拟合问题，通常有两种办法，第一是减少样本的特征（即维度），第二就是我们这里要说的”正则化“（又称为”惩罚“,penalty）。
正则化的一般形式是在整个平均损失函数后增加一个正则项(L2范数正则化，也有其他形式的正则化，他们的作用也不同)：
什么情况下出现过拟合：
当你拟合的函数中，一些特征权重阶数越高时，过度拟合的情况越有可能发生，反之阶数越小，过拟合发生概率越小，甚至会欠拟合。
比如有三个拟合函数：
a₀+a₁x₁+ a₂x₂
a₀+ a₁x₁+ a₂x₂ + a₃x₁² + a₄x₂²
a₀+ a₁x₁+ a₂x₂ + a₃x₁² + a₄x₂²+ a₅x₁³ + a₆x₂³
则最后这个过拟合的可能最高。

正则化：特征全部保留，但特征系数进行最小优化。
设一般情况下的成本函数为costFucntion(a,x,y)
为了时特征系数减小，以使ax^j变小，新的成本函数为 costFunction_reg(a,x,y) = costFunction(a,x,y) + sum(a_j²)
　　我们将这种处理叫做正则化

　　新增的正则化项为 a₀² + a₁² + ... + a_n², 惯例上不要a₀²这项（他是1的系数），但即使加上效果影响不大。

正则化的线性回归问题
成本函数：costFunction(a,X,y) = 1/2m *sum((h(a,X)-y).^2)，其中h(a,X)=Xa;
正则化后：costFunctionReg(a,X,y) = costFunction(a,X,y) + lambda*sum(a_j²)
梯度下降法：a_j = a_j - 1/m *alpha * ( h(a,X)-y ) * X_j
正则化后：a_j = a_j - 1/m * alpha * ( h(a,X)-y ) * X_j- 1/m * alpha * lambda * a_j
正规方程组解法 a = (X^T*X)^-1*X^T*y

正则化后：a = (X^T*X - lambda * I )^-1*X^T*y

logistic分类问题过拟合解决
　　成本函数：costFunction(h_a(x),y) = -y*log( h_a(x) ) - (1-y)*log( 1- h_a(x))
　　　　正则化后：costFunctionReg(h_a(x),y) = costFunction(h_a(x),y) + lambda*sum(a_j²)
　　梯度下降法：a_j =a_j - 1/m*(h_a(x)-y )* X_j;
　　　　正则化后：a_j =a_j - 1/m*(h_a(x)-y )* X_j -1/m*lambda*a