关于l2范数正则化与高斯先验问题

前言

我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题;我们选择了非常精确的逻辑回归作为模型类,其中我们为每个特征指定了一个权重。这是不现实的,因为任何这样的模型的编码长度都是无限的,但如果我们对权值使用高斯先验并忽略常数因子,我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解,我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。

1. 问题描述

( x 1 , … … , x n ) (x_1,……,x_n) (x1xn)是一组示例。设 ( y 1 , … … , y n ) , y i ∈ { + 1 , − 1 } (y_1,……,y_n),y_i∈\{+1,−1\} (y1yn)yi{+11},是一组二进制标签的例子。我们要解决的问题是如何尽可能有效地对标签进行编码。标签本身几乎没有什么内部结构;我们使用示例中的信息来帮助预测标签。压缩是判断系统学习程度的一种自然方式。在这种情况下,压缩就判断了使用这些例子来预测标签的有效性。请注意,为了使用这些示例,我们必须编码提取信息的机制,因此该框架施加了一种自然的正则化。

2. 编码

为了对标签进行编码,我们使用一个线性分类器来估计一个条件分布。在一部分中,我们编码线性分类器的权重,在第二部分中,我们编码标签,因为它们没有被分类器指定。定义:
p ( y i = + 1 ∣ x i ; W → ) = g ( ∑ k = 0 l x i k W k ) (1) p(y_i=+1|x_i;\overrightarrow{W})=g(\sum \limits_{k=0}^lx_{ik}W_k) \tag 1 p(yi=+1xi;W )=g(k=0lxikWk)(1)
为例子 x i x_i xi为正的标签 y i y_i yi的条件概率。 g ( z ) = 1 1 + 1 e − z g(z)=\frac{1}{1+1e^{−z}} g(z)=1+1ez1是逻辑函数。 x i k x_{ik} xik是例子i的第k个特征的值。 W k W_k Wk是特征 k k k的权重。 k = 0 k=0 k=0是特殊的“偏差”特征; x i 0 = 1 x_{i0}=1 xi0=1对于所有, l l l是无偏差特征的数量。让 z i = ∑ k x i k w k z_i=\sum_k x_{ik}w_k zi=kxikwk。那么,如果我们忽略了编码的离散实用性,则标签 y i y_i yi的编码长度为:
L ( y i ∣ x i ; W → ) = − l o g   g ( y i z i ) (2) L(y_i|x_i;\overrightarrow{W})=-log \ g(y_iz_i) \tag 2 L(yixi;W )=log g(yizi)(2)
Proof:
1 − g ( z ) = e − z 1 + e − z = 1 1 + e z = g ( − z ) (2*) 1-g(z)=\frac{e^{-z}}{1+e^{-z}}=\frac{1}{1+e^z}=g(-z) \tag {2*} 1g(z)=1+ezez=1+ez1=g(z)(2*)
剩下要编码的就是权重。为了编码权值,我们假设有一个均值为零,方差为σ2的高斯先验:
p ( w k ) = 1 2 π σ 2 e x p ( − w k 2 2 σ 2 ) (3) p(w_k)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{w_k^2}{2\sigma^2}) \tag 3 p(wk)=2πσ2 1exp(2σ2wk2)(3)
但这是一个密度,而不是我们所要求的概率质量函数。然而,我们并不关心绝对编码长度——相对编码长度就足够了,因为我们正在比较一个限制类中的模型。利用这个先验并将其作为一个概率质量函数,我们得到一个(相关的)编码长度:
L ( w k ) = − l o g   p ( w k ) (4) L(w_k)=-log\ p(w_k) \tag 4 L(wk)=log p(wk)(4)
现在,我们可以写下总的编码长度了。总编码长度将所有标签和所有权重的编码长度求和。我们没有考虑“偏差”的权重。总编码长度为:
L t o t = − ∑ i l o g   g ( y i z i ) + ∑ k = 1 l ( 1 2 l o g ( 2 π σ 2 ) + w k 2 2 σ 2 ) (5) L_{tot}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l(\frac{1}{2}log(2\pi \sigma^2)+\frac{w_k^2}{2\sigma^2}) \tag 5 Ltot=ilog g(yizi)+k=1l(21log(2πσ2)+2σ2wk2)(5)

3. 正则化逻辑回归

逻辑回归最大限度地提高了标签的(对数)可能性,其中标签的可能性如公式1中所定义的。我们减去l2范数的平方的一个常数倍数来正则化权值。这就给了我们一个目标:
J l r = ∑ i l o g   g ( y i z i ) ‾ − C 2 ∑ k = 1 l w k 2 (6) J_{lr}=\underline{\sum \limits_{i}log\ g(y_iz_i)}-\frac{C}{2}\sum \limits_{k=1}^lw_k^2 \tag 6 Jlr=ilog g(yizi)2Ck=1lwk2(6)
其中,下划线处(利用式二)还以写成:
∑ l y i l o g   g ( z i ) + ( 1 − y i ) l o g   ( 1 − g ( z i ) ) (6*) \sum \limits_{l}y_i log\ g(z_i)+(1-y_i)log\ (1-g(z_i)) \tag {6*} lyilog g(zi)+(1yi)log (1g(zi))(6*)
(6)式需要我们最大化的。

为了最小化上述定义的总编码长度,我们可以忽略 1 2 l o g ( 2 π σ 2 ) \frac{1}{2}log(2πσ^2) 21log(2πσ2)常量项。因此,我们希望最小化的编码长度目标是:
L t o t ′ = − ∑ i l o g   g ( y i z i ) + ∑ k = 1 l w k 2 2 σ 2 (7) L_{tot}^{'}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l\frac{w_k^2}{2\sigma^2} \tag 7 Ltot=ilog g(yizi)+k=1l2σ2wk2(7)
反转符号并替换 C = 1 σ 2 C=\frac{1}{σ^2} C=σ21,得到了正则化的逻辑回归目标。

4. 结论

从第3节中可以清楚地看出,用于逻辑回归(和其他学习算法)的l2-范数正则化器不是任意的,而是对权值施加高斯先验的直接结果。

Reference:
[1] On L2-norm Regularization and the Gaussian Prior

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值