【机器学习基础】神经网络正则化

本系列为《模式识别与机器学习》的读书笔记。

一,相容的⾼斯先验

神经⽹络的输⼊单元和输出单元的数量通常由数据集的维度确定,⽽隐含单元的数量 M M M 是⼀个⾃由的参数,可以通过调节来给出最好的预测性能。

控制神经⽹络的模型复杂度来避免过拟合,根据对多项式曲线拟合问题的讨论,⼀种⽅法是选择⼀个相对⼤的 M M M 值,然后通过给误差函数增加⼀个正则化项,来控制模型的复杂度。最简单的正则化项是⼆次的,给出了正则化的误差函数,形式为
E ~ ( w ) = E ( w ) + λ 2 w T w (5.73) \tilde{E}(\boldsymbol{w})=E(\boldsymbol{w})+\frac{\lambda}{2}\boldsymbol{w}^{T}\boldsymbol{w}\tag{5.73} E~(w)=E(w)+2λwTw(5.73)
这个正则化项也被称为权值衰减weight decay)。模型复杂度可以通过选择正则化系数 λ \lambda λ 来确定,正则化项可以表⽰为权值 w \boldsymbol{w} w 上的零均值⾼斯先验分布的负对数。

公式(5.73)给出的简单权值衰减的⼀个局限性是:它与⽹络映射的确定缩放性质不相容。考虑⼀个多层感知器⽹络,这个⽹络有两层权值和线性输出单元,给出了从输⼊变量集合 { x i } \{x_i\} { xi} 到输出变量集合 { y k } \{y_k\} { yk} 的映射。第⼀个隐含层的隐含单元的激活的形式为

z j = h ( ∑ i w j i x i + w j 0 ) (5.74) z_j=h\left(\sum_{i}w_{ji}x_{i}+w_{j0}\right)\tag{5.74} zj=h(iwjixi+wj0)(5.74)

输出单元的激活为

y k = ∑ j w k j z j + w k 0 (5.75) y_k=\sum_{j}w_{kj}z_j+w_{k0}\tag{5.75} yk=jwkjzj+wk0(5.75)

假设对输⼊变量进⾏⼀个线性变换,形式为

x i → x ~ i = a x i + b (5.76) x_i\to\tilde{x}_{i}=ax_i+b\tag{5.76} xix~i=axi+b(5.76)

然后根据这个映射对⽹络进⾏调整,使得⽹络给出的映射不变。调整的⽅法为,对从输⼊单元到隐含层单元的权值和偏置也进⾏⼀个对应的线性变换,形式为

w j i → w ~ j i = 1 a w j i w_{ji}\to\tilde{w}_{ji}=\frac{1}{a}w_{ji} wjiw~ji=a1wji

w j 0 → w ~ j 0 = w j 0 − b a ∑ i w j i w_{j0}\to\tilde{w}_{j0}=w_{j0}-\frac{b}{a}\sum_{i}w_{ji} wj0w~j0=wj0abiwji

⽹络的输出变量的线性变换

y k → y ~ k = c y k + d (5.77) y_{k}\to\tilde{y}_{k}=cy_k+d\tag{5.77} yky~k=cyk+d(5.77)

可以通过对第⼆层的权值和偏置进⾏线性变换的⽅式实现。变换的形式为

w k j → w ~ k j = c w k j w_{kj}\to\tilde{w}_{kj}=cw_{kj} wkjw~kj=cwkj

w k 0 → w ~ k 0 = c w k 0 + d w_{k0}\to\tilde{w}_{k0}=cw_{k0}+d wk0w~k0=cwk0+d

于是要寻找⼀个正则化项,它在上述线性变换和下具有不变性,这需要正则化项应该对于权值的重新缩放不变,对于偏置的平移不变。这样的正则化项为

λ 1 2 ∑ w ∈ W 1 w 2 + λ 2 2 ∑ w ∈ W 2 w 2 \frac{\lambda_1}{2}\sum_{w\in\mathcal{W_1}}w^2+\frac{\lambda_2}{2}\sum_{w\in\mathcal{W_2}}w^2 2λ1wW1w2+2λ2wW2w2

其中 W 1 \mathcal{W}_1 W1 表⽰第⼀层的权值集合, W 2 \mathcal{W}_2 W2 表⽰第⼆层的权值集合, 偏置未出现在求和式中。这个正则化项在权值的变换下不会发⽣变化,只要正则化参数进⾏下⾯的重新放缩即可: λ 1 → a 1 2 λ 1 \lambda_1 \to a^{\frac{1}{2}}\lambda_1 λ1a21λ1 λ 2 → a − 1 2 λ 2 \lambda_2 \to a^{-\frac{1}{2}}\lambda_2 λ2a21λ2 , 正则化项对应于下⾯形式的先验概率分布。

p ( w ∣ α 1 , α 2 ) ∝ exp ⁡ ( − α 1 2 ∑ w ∈ W 1 w 2 − α 2 2 ∑ w ∈ W 2 w 2 ) (5.78) p(\boldsymbol{w}|\alpha_1,\alpha_2)\propto\exp\left(-\frac{\alpha_1}{2}\sum_{w\in\mathcal{W_1}}w^2-\frac{\alpha_2}{2}\sum_{w\in\mathcal{W_2}}w^2\right)\tag{5.78} p(wα1,α2)exp(2α1wW1w22

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值