关于l2范数正则化与高斯先验问题

大笨钟47

于 2022-01-13 11:38:25 发布

阅读量782

点赞数

分类专栏：机器学习数学文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/qq_45033722/article/details/122470450

版权

机器学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

数学

2 篇文章 0 订阅

订阅专栏

前言

我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题；我们选择了非常精确的逻辑回归作为模型类，其中我们为每个特征指定了一个权重。这是不现实的，因为任何这样的模型的编码长度都是无限的，但如果我们对权值使用高斯先验并忽略常数因子，我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解，我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。

1. 问题描述

设 $x_1，……，x_n)$ 是一组示例。设 $y_1，……，y_n)，y_i∈\{+1，−1\}$ ，是一组二进制标签的例子。我们要解决的问题是如何尽可能有效地对标签进行编码。标签本身几乎没有什么内部结构；我们使用示例中的信息来帮助预测标签。压缩是判断系统学习程度的一种自然方式。在这种情况下，压缩就判断了使用这些例子来预测标签的有效性。请注意，为了使用这些示例，我们必须编码提取信息的机制，因此该框架施加了一种自然的正则化。

2. 编码

为了对标签进行编码，我们使用一个线性分类器来估计一个条件分布。在一部分中，我们编码线性分类器的权重，在第二部分中，我们编码标签，因为它们没有被分类器指定。定义：
$p(y_i=+1|x_i;\overrightarrow{W})=g(\sum \limits_{k=0}^lx_{ik}W_k) \tag 1$
为例子 $x_i$ 为正的标签 $y_i$ 的条件概率。 $g(z)=\frac{1}{1+1e^{−z}}$ 是逻辑函数。 $x_{ik}$ 是例子i的第k个特征的值。 $W_k$ 是特征 $k$ 的权重。 $k = 0$ 是特殊的“偏差”特征； $x_{i0}=1$ 对于所有, $l$ 是无偏差特征的数量。让 $z_i=\sum_k x_{ik}w_k$ 。那么，如果我们忽略了编码的离散实用性，则标签 $y_i$ 的编码长度为:
$L(y_i|x_i;\overrightarrow{W})=-log \ g(y_iz_i) \tag 2$
Proof:
$1-g(z)=\frac{e^{-z}}{1+e^{-z}}=\frac{1}{1+e^z}=g(-z) \tag {2*}$
剩下要编码的就是权重。为了编码权值，我们假设有一个均值为零，方差为σ2的高斯先验:
$p(w_k)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{w_k^2}{2\sigma^2}) \tag 3$
但这是一个密度，而不是我们所要求的概率质量函数。然而，我们并不关心绝对编码长度——相对编码长度就足够了，因为我们正在比较一个限制类中的模型。利用这个先验并将其作为一个概率质量函数，我们得到一个（相关的）编码长度:
$L(w_k)=-log\ p(w_k) \tag 4$
现在，我们可以写下总的编码长度了。总编码长度将所有标签和所有权重的编码长度求和。我们没有考虑“偏差”的权重。总编码长度为：
$L_{tot}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l(\frac{1}{2}log(2\pi \sigma^2)+\frac{w_k^2}{2\sigma^2}) \tag 5$

3. 正则化逻辑回归

逻辑回归最大限度地提高了标签的（对数）可能性，其中标签的可能性如公式1中所定义的。我们减去l2范数的平方的一个常数倍数来正则化权值。这就给了我们一个目标:
$J_{lr}=\underline{\sum \limits_{i}log\ g(y_iz_i)}-\frac{C}{2}\sum \limits_{k=1}^lw_k^2 \tag 6$
其中，下划线处(利用式二)还以写成：
$\sum \limits_{l}y_i log\ g(z_i)+(1-y_i)log\ (1-g(z_i)) \tag {6*}$
（6）式需要我们最大化的。

为了最小化上述定义的总编码长度，我们可以忽略 $\frac{1}{2}log(2πσ^2)$ 常量项。因此，我们希望最小化的编码长度目标是:
$L_{tot}^{'}=-\sum \limits_{i}log \ g(y_iz_i)+\sum \limits_{k=1}^l\frac{w_k^2}{2\sigma^2} \tag 7$
反转符号并替换 $C=\frac{1}{σ^2}$ ，得到了正则化的逻辑回归目标。

4. 结论

从第3节中可以清楚地看出，用于逻辑回归（和其他学习算法）的l2-范数正则化器不是任意的，而是对权值施加高斯先验的直接结果。

Reference：
[1] On L2-norm Regularization and the Gaussian Prior

大笨钟47

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于l2范数正则化与高斯先验问题

前言我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题；我们选择了非常精确的逻辑回归作为模型类，其中我们为每个特征指定了一个权重。这是不现实的，因为任何这样的模型的编码长度都是无限的，但如果我们对权值使用高斯先验并忽略常数因子，我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解，我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。1. 问题描述设(x1，……，xn)(x
复制链接

扫一扫