正则化与贝叶斯视角-CSDN博客

本文链接：https://blog.csdn.net/coszero/article/details/103228616

Regularization: A Bayesian point of view

Introduction

正则化(regularization)是防止模型过拟合(overfitting)的有效方式之一。常用的正则化包括L1正则和L2正则，我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归，使得参数稀疏化，倾向于产生稀疏模型，是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。而L2正则化对应岭回归，倾向于选择使各个参数尽可能小的模型，L2正则化更平滑，在可解释性方面差于L1正则化，但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。

在这里插入图片描述

Linear regression

Ordinary linear regression采用均方误差，hypothesis $f(x) = {w^T}x $ ,通过最小化均方误差（观测值与预测值的残差平方）来训练模型参数，即
$\mathop {\arg \min }\limits_w \sum\limits_{ {\rm{i}} = 1}^m { { {({y^{(i)}} - {w^T}{x^{(i)}})}^2}}$
下面我们假设第i个样本上的误差 ${^{(i)}} = {y^{(i)}} - {w^T}{x^{(i)}}$ 服从gaussian分布，即
$p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \delta^{2}}\right)$
于是
$p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right)$
由最大似然估计（MLE）
$\begin{aligned} L(w) &=p(\vec{y} | X ; w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \end{aligned}$