从贝叶斯角度看正则化

Regularization: A Bayesian point of view

Introduction

正则化(regularization)是防止模型过拟合(overfitting)的 有效方式之一。常用的正则化包括L1正则和L2正则,我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归,使得参数稀疏化,倾向于产生稀疏模型,是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。而L2正则化对应岭回归,倾向于选择使各个参数尽可能小的模型,L2正则化更平滑,在可解释性方面差于L1正则化,但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。

在这里插入图片描述

Linear regression

Ordinary linear regression采用均方误差,hypothesis $f(x) = {w^T}x $ ,通过最小化均方误差(观测值与预测值的残差平方)来训练模型参数,即
w=arg⁡min⁡w∑i=1m(y(i)−wTx(i))2 w = \mathop {\arg \min }\limits_w \sum\limits_{ {\rm{i}} = 1}^m { { {({y^{(i)}} - {w^T}{x^{(i)}})}^2}} w=wargmini=1m(y(i)wTx(i))2
下面我们假设第i个样本上的误差(i)=y(i)−wTx(i){^{(i)}} = {y^{(i)}} - {w^T}{x^{(i)}}(i)=y(i)wTx(i) 服从gaussian分布,即
p(ϵ(i))=12πδexp⁡(−(ϵ(i))22δ2) p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \delta^{2}}\right) p(ϵ(i))=2π δ1exp(2δ2(ϵ(i))2)
​ 于是
p(y(i)∣x(i);θ)=12πδexp⁡(−(y(i)−wTx(i))22δ2) p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) p(y(i)x(i);θ)=2π δ1exp(2δ2(y(i)wTx(i))2)
由最大似然估计(MLE)
L(w)=p(y⃗∣X;w)=∏i=1mp(y(i)∣x(i);θ)=∏i=1m12πδexp⁡(−(y(i)−wTx(i))22δ2) \begin{aligned} L(w) &=p(\vec{y} | X ; w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \end{aligned} L(w)=p(y X;w)=i=1mp(y(i)x(i);θ)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值