【机器学习】深剖L1与L2权重正则化

最新推荐文章于 2024-10-01 06:30:00 发布

置顶

郑壮强

最新推荐文章于 2024-10-01 06:30:00 发布

阅读量2k

点赞数 3

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_18500245/article/details/95904950

版权

【机器学习】深剖L1与L2权重正则化

前言
概念
特点
理解
扩展1--> $L_{1}L_{2}$ 正则化与线性回归
扩展2--> $L_{x}$ 正则化
参考博客

前言

深度学习优化中的损失函数 $\mathcal{L}$ 通常由两部分组成，经验损失 $\mathcal{L_{emp}}$ 与正则损失 $\mathcal{\Omega(f)}$ ，可以描述如下： $\mathcal{L}=\mathcal{L_{emp}}+\lambda\mathcal{\Omega(f)}$ 经验损失尽可能地拟合数据集，从数据集中挖掘规则，然而由于数据集采样的随机性与有限性，经验分布无法准确描述数据生成分布，容易导致过拟合问题的发生。正则化损失编码了我们对模型、问题的先验知识，体现了我们对模型的归纳偏好，致力于提高模型的泛化能力。综合两种损失，即可以挖掘数据提供的信息避免过拟合，又可以充分利用人们的先验知识提升泛化性能。

正则损失通常可以分为两类：一般性的正则损失（如L1，L2正则化、奥卡姆剃刀原则、最大熵原则），领域相关的正则损失。本文重点描述L1、L2正则损失。

概念

L1正则损失： $\mathcal{\Omega(f)}=\sum\limits_{\theta}|\theta|$
L2正则损失： $\mathcal{\Omega(f)}=\sum\limits_{\theta}||\theta||_2^2$

特点

L1归纳偏好：学习到的模型权重稀疏
L2归纳偏好：学习到的模型权重平滑

理解

参数的极大似然估计

参数估计的方式有矩估计、极大似然估计、贝叶斯估计。机器学习常用的为后两者。极大似然估计认为参数是确定的值，并把再当前参数配置下样本的发生概率作为当前参数配置的似然，然后最大化参数的似然，即 $\arg\max\limits_{\theta} P(X|\theta)$ ，然后基于学到的参数来预测。贝叶斯估计认为参数是服从先验分布的随机变量，给定当前观测 $X$ 下，可以获得对参数的进一步认知，得到参数的后验分布 $P(\theta|X)$ ，并基于参数的后验分布做预测。由于贝叶斯估计考虑对参数的先验知识，所以通常情况下贝叶斯估计要优于极大似然估计，但是贝叶斯决策是基于参数的后验分布来决策的，所以计算量较大。通过综合两者的优点可以得到参数的最大后验概率估计，即 $\arg\max\limits_{\theta} P(\theta|X)$ 。进一步，