从贝叶斯角度理解正则化

前言


上一篇:正则化

下一篇:提前终止法与正则化法关系

1.贝叶斯法则


贝叶斯法则: P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

P ( A ) P(A) P(A)称为先验概率(反映在已知 B B B之前对事件 A A A的认知); P ( A ∣ B ) P(A|B) P(AB)称为后验概率(反映在已知 B B B之后对事件 A A A的认知); P ( B ∣ A ) P(B|A) P(BA)是在事件 A A A发生的条件下,事件 B B B发生的条件概率; P ( B ) P(B) P(B)是事件的边缘概率(被用作归一化因子)

贝叶斯法则在于先验概率,如果它很大,那么后验概率也将显著增大

2.正则化项


一个包括网络输入及其对应目标输出的训练样本集:

{ p 1 , t 1 } , { p 2 , t 2 } , ⋯   , { p n , t n } \left\{ p_{1},t_{1} \right\},\left\{ p_{2},t_{2} \right\},\cdots,\left\{ p_{n},t_{n} \right\} { p1,t1},{ p2,t2},,{ pn,tn}

假设目标输出通过如下方式生成:

t q = g ( p q ) + ε q t_{q} = g(p_{q}) + \varepsilon_{q} tq=g(pq)+εq (13.2)

其中, g ( ) g() g()为某未知函数, ε q \varepsilon_{q} εq为一个随机独立分布的零均值噪声源。我们的训练目标是产生一个能够逼近函数 g ( ) g() g()并且忽略噪声影响的神经网络。

神经网络训练的标准性能指标是该网络在训练集上的误差平方和:

F ( x ) = E D = ∑ q = 1 Q ( t q − a q ) T ( t q − a q ) F(x) = E_{D} = \sum_{q = 1}^{Q}{(t_{q} - a_{q})^{T}}(t_{q} - a_{q}) F(x)=ED=q=1Q(tqaq)T(tqaq)

其中, a q a_{q} aq表示输入为时网络的输出。 E D E_{D} ED这里表示训练数据上的误差平方和。

修改式,添加一个包含逼近函数(我们的例子中为神经网络)导数的惩罚项(或说为正则化项),以平滑所得到的函数。在一定条件下,正则化项可以写成网络权值平方和的形式,如:

F ( x ) = β E D + α E w = β ∑ q = 1 Q ( t q − a q ) T ( t q − a q ) + α ∑ i = 1 n x i 2 F(x) = \beta {E_D} + \alpha {E_w} = \beta \sum\limits_{q = 1}^Q { { {({t_q} - {a_q})}^T}({t_q} - {a_q})} + \alpha \sum\limits_{i = 1}^n {x_i^2} F(x)=βED+αEw=βq=1Q(tqaq)T(tqaq)+αi=1nxi2

其中,比率 α / β \alpha/\beta α/β用于控制网络解的有效复杂度。比率越大,网络响应越平滑。

正则化项本质上是一种先验信息,整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式,如果你将这个贝叶斯最大后验估计的形式取对数,即进行极大似然估计,你就会发现问题立马变成了损失函数+正则化项的最优化问题形式。

3.贝叶斯正则化


David Mackey将神经网络的训练置于贝叶斯框架中,除了选取正则化参数外,它还对训练过程的很多方面有所帮助。

该贝叶斯分析有两层:

  • 对正则化性能指标进行统计学推导,理解参数的意义;
  • 第二层:估计参数。
I I I层贝叶斯框架

该贝叶斯框架假设神经网络的权值为随机变量。对于给定的数据集,我们选取能够最大化权值的条件概率的权值。贝叶斯法则用于计算如下概率函数:

P ( x ∣ D , α , β , M ) = P ( D ∣ x , β , M ) P ( x ∣ α , M ) P ( D ∣ α , β , M ) P(x|D,\alpha,\beta,M) = \frac{P(D|x,\beta,M)P(x|\alpha,M)}{P(D|\alpha,\beta,M)} P(xD,α,β,M)=P(Dα,β,M)P(Dx,β,M)P(xα,M)

其中, x x x是包含网络所有权值和偏置量; D D D表示训练数据集; α \alpha

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值