前言
我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题;我们选择了非常精确的逻辑回归作为模型类,其中我们为每个特征指定了一个权重。这是不现实的,因为任何这样的模型的编码长度都是无限的,但如果我们对权值使用高斯先验并忽略常数因子,我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解,我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。
1. 问题描述
设 ( x 1 , … … , x n ) (x_1,……,x_n) (x1,……,xn)是一组示例。设 ( y 1 , … … , y n ) , y i ∈ { + 1 , − 1 } (y_1,……,y_n),y_i∈\{+1,−1\} (y1,……,yn),yi∈{+1,−1},是一组二进制标签的例子。我们要解决的问题是如何尽可能有效地对标签进行编码。标签本身几乎没有什么内部结构;我们使用示例中的信息来帮助预测标签。压缩是判断系统学习程度的一种自然方式。在这种情况下,压缩就判断了使用这些例子来预测标签的有效性。请注意,为了使用这些示例,我们必须编码提取信息的机制,因此该框架施加了一种自然的正则化。
2. 编码
为了对标签进行编码,我们使用一个线性分类器来估计一个条件分布。在一部分中,我们编码线性分类器的权重,在第二部分中,我们编码标签,因为它们没有被分类器指定。定义:
p
(
y
i
=
+
1
∣
x
i
;
W
→
)
=
g
(
∑
k
=
0
l
x
i
k
W
k
)
(1)
p(y_i=+1|x_i;\overrightarrow{W})=g(\sum \limits_{k=0}^lx_{ik}W_k) \tag 1
p(yi=+1∣xi;W)=g(k=0∑lxikWk)(1)
为例子
x
i
x_i
xi为正的标签
y
i
y_i
yi的条件概率。
g
(
z
)
=
1
1
+
1
e
−
z
g(z)=\frac{1}{1+1e^{−z}}
g(z)=1+1e−z1是逻辑函数。
x
i
k
x_{ik}
xik是例子i的第k个特征的值。
W
k
W_k
Wk是特征
k
k
k的权重。
k
=
0
k=0
k=0是特殊的“偏差”特征;
x
i
0
=
1
x_{i0}=1
xi0=1对于所有,
l
l
l是无偏差特征的数量。让
z
i
=
∑
k
x
i
k
w
k
z_i=\sum_k x_{ik}w_k
zi=∑kxikwk。那么,如果我们忽略了编码的离散实用性,则标签
y
i
y_i
yi的编码长度为:
L
(
y
i
∣
x
i
;
W
→
)
=
−
l
o
g
g
(
y
i
z
i
)
(2)
L(y_i|x_i;\overrightarrow{W})=-log \ g(y_iz_i) \tag 2
L(yi∣xi;W)=−log g(yizi)(2)
Proof:
1
−
g
(
z
)
=
e
−
z
1
+
e
−
z
=
1
1
+
e
z
=
g
(
−
z
)
(2*)
1-g(z)=\frac{e^{-z}}{1+e^{-z}}=\frac{1}{1+e^z}=g(-z) \tag {2*}
1−g(z)=1+e−ze−z=1+ez1=g(−z)(2*)
剩下要编码的就是权重。为了编码权值,我们假设有一个均值为零,方差为σ2的高斯先验:
p
(
w
k
)
=
1
2
π
σ
2
e
x
p
(
−
w
k
2
2
σ
2
)
(3)
p(w_k)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{w_k^2}{2\sigma^2}) \tag 3
p(wk)=2πσ21exp(−2σ2wk2)(3)
但这是一个密度,而不是我们所要求的概率质量函数。然而,我们并不关心绝对编码长度——相对编码长度就足够了,因为我们正在比较一个限制类中的模型。利用这个先验并将其作为一个概率质量函数,我们得到一个(相关的)编码长度:
L
(
w
k
)
=
−
l
o
g
p
(
w
k
)
(4)
L(w_k)=-log\ p(w_k) \tag 4
L(wk)=−log p(wk)(4)
现在,我们可以写下总的编码长度了。总编码长度将所有标签和所有权重的编码长度求和。我们没有考虑“偏差”的权重。总编码长度为:
L
t
o
t
=
−
∑
i
l
o
g
g
(
y
i
z
i
)
+
∑
k
=
1
l
(
1
2
l
o
g
(
2
π
σ
2
)
+
w
k
2
2
σ
2
)
(5)
L_{tot}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l(\frac{1}{2}log(2\pi \sigma^2)+\frac{w_k^2}{2\sigma^2}) \tag 5
Ltot=−i∑log g(yizi)+k=1∑l(21log(2πσ2)+2σ2wk2)(5)
3. 正则化逻辑回归
逻辑回归最大限度地提高了标签的(对数)可能性,其中标签的可能性如公式1中所定义的。我们减去l2范数的平方的一个常数倍数来正则化权值。这就给了我们一个目标:
J
l
r
=
∑
i
l
o
g
g
(
y
i
z
i
)
‾
−
C
2
∑
k
=
1
l
w
k
2
(6)
J_{lr}=\underline{\sum \limits_{i}log\ g(y_iz_i)}-\frac{C}{2}\sum \limits_{k=1}^lw_k^2 \tag 6
Jlr=i∑log g(yizi)−2Ck=1∑lwk2(6)
其中,下划线处(利用式二)还以写成:
∑
l
y
i
l
o
g
g
(
z
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
g
(
z
i
)
)
(6*)
\sum \limits_{l}y_i log\ g(z_i)+(1-y_i)log\ (1-g(z_i)) \tag {6*}
l∑yilog g(zi)+(1−yi)log (1−g(zi))(6*)
(6)式需要我们最大化的。
为了最小化上述定义的总编码长度,我们可以忽略
1
2
l
o
g
(
2
π
σ
2
)
\frac{1}{2}log(2πσ^2)
21log(2πσ2)常量项。因此,我们希望最小化的编码长度目标是:
L
t
o
t
′
=
−
∑
i
l
o
g
g
(
y
i
z
i
)
+
∑
k
=
1
l
w
k
2
2
σ
2
(7)
L_{tot}^{'}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l\frac{w_k^2}{2\sigma^2} \tag 7
Ltot′=−i∑log g(yizi)+k=1∑l2σ2wk2(7)
反转符号并替换
C
=
1
σ
2
C=\frac{1}{σ^2}
C=σ21,得到了正则化的逻辑回归目标。
4. 结论
从第3节中可以清楚地看出,用于逻辑回归(和其他学习算法)的l2-范数正则化器不是任意的,而是对权值施加高斯先验的直接结果。
Reference:
[1] On L2-norm Regularization and the Gaussian Prior