我要学统计|什么是Regulaization(正则化)?

正则化(Regularization)是机器学习和统计建模中用于防止过拟合(overfitting)的一种技术。过拟合发生在模型对训练数据的小波动或噪声过于敏感,从而失去了泛化到新数据的能力。正则化通过在模型的损失函数中添加一个额外的项来实现,这个额外的项会惩罚模型的复杂度。

正则化的关键概念:

  1. 损失函数(Loss Function): 损失函数衡量模型预测值与实际观测值之间的差异。在正则化中,原始的损失函数会加上一个正则化项。

  2. 正则化项(Regularization Term): 正则化项通常是模型参数的一个函数,它鼓励模型参数保持较小的值。正则化项的目的是简化模型,使其不过于复杂。

  3. 正则化系数(Regularization Parameter): 正则化系数是一个超参数,用于控制正则化项的强度。增加正则化系数的值会增强正则化的效果,使模型更简单。

  4. L1正则化(L1 Regularization): 也称为Lasso正则化,它在损失函数中添加了参数的绝对值之和。L1正则化有助于产生稀疏的模型参数,即许多参数值为零。

  5. L2正则化(L2 Regularization): 也称为Ridge正则化,它在损失函数中添加了参数平方和的项。L2正则化倾向于让参数值接近零但不完全为零,从而保持模型的平滑性。

  6. 弹性网(Elastic Net)正则化: 结合了L1和L2正则化,同时惩罚参数的绝对值和平方。这种方法结合了L1正则化产生稀疏解和L2正则化稳定性的优点。

正则化的作用:

  • 防止过拟合:通过限制模型的复杂度,正则化有助于提高模型在未见过的数据上的预测性能。
  • 提高模型稳定性:正则化后的模型对数据中的小波动和噪声不那么敏感。
  • 特征选择:尤其是L1正则化,可以有效地执行特征选择,自动排除不重要的特征。
  • 优化问题:正则化将原始的优化问题(如最小化损失)转化为一个带有约束的新问题,通常需要特定的优化算法来求解。

收缩(Shrinkage Methods)

收缩通常指的是在估计参数时,向零方向的收缩或缩减。在统计学中,收缩是一种减少参数估计波动性的方法,它可以使估计值更接近于零或某个先验值。收缩技术包括:

        Lasso Regression: L1 regularization

        Ridge Regression:L2 regularization

降维:(Dimension Reduction Methods)

       主成分回归(Principal Component Regression, PCR

  • 10
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值