权重衰减（weight decay）在贝叶斯推断（Bayesian inference）下的理解

最新推荐文章于 2024-07-18 11:05:47 发布

kdaHugh

最新推荐文章于 2024-07-18 11:05:47 发布

阅读量1.1k

点赞数 3

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/kdazhe/article/details/116431043

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

权重衰减（weight decay）在贝叶斯推断（Bayesian inference）下的理解

摘要
权重衰减
贝叶斯(Bayes inference) 视角下的权重衰减
似然函数（log likelihood）
参考资料

摘要

对于有过拟合的模型，我们经常会用权重衰减（weight decay）这样一种正则化（regularization）的方法。直观上，权重衰减就是在原损失函数的基础上加入了一个对权重模（norm）的惩罚项。这个惩罚项的加入使我们可以权衡模型的灵活性（权重值的绝对值越大，模型越灵活）与稳定性（权重值的绝对值越小，模型越稳定）。那么权重衰减与贝叶斯推断是什么关系呢？本文就来简单介绍下贝叶斯视角下的权重衰减的理解。

权重衰减

假设我们模型的参数是 $W$ （ $W$ 是一个向量）。假设模型的损失函数是 $\displaystyle J(W)$ 。加入权重衰减之后，损失函数就变成了 $\displaystyle J(W) + \lambda \sum_i w_i^2$ 。为了不失一般性，我们将 $\displaystyle J(W)$ 写成 $\displaystyle \sum_j \big( y_j - f(W, x_j) \big)^2$ 。其中 $y_j$ 是第 $j$ 个训练数据对应的真实的 $y$ 值。 $\lambda$ 是一个超参数，可以通过交叉验证 (cross validation) 来确定。模型训练就是要找到最佳的参数 $W$ ，使得损失函数最小。

贝叶斯(Bayes inference) 视角下的权重衰减

在贝叶斯视角下如何去看权重衰减呢？

假设我们的训练数据集是 $D$ ，权重是 $W$ 。我们用条件概率 $\displaystyle \mathbb{P}(W \vert D)$ 表示在观测到数据 $D$ 的条件下，模型中参数为 $W$ 的概率。

根据 Bayes 公式，我们可以将 $\displaystyle \mathbb{P}(W \vert D)$ 写成
$\displaystyle \mathbb{P}(W \vert D) = \frac{\mathbb{P}(W) \cdot \mathbb{P}(D \vert W)}{\mathbb{P}(D)}$

从贝叶斯推断的角度去考虑模型的参数选择，我们就是希望找到模型的参数 $W$ ，使得 $\displaystyle \mathbb{P}(W \vert D)$ 最大。

在上面的公式右边的项中， $\displaystyle \mathbb{P}( D)$ 表示观测到数据 $D$ 的概率，这个概率是通过对所有的权重 $W$ 可能取到的值的积分而得，所以与 $W$ 无关。

对于 $\displaystyle \mathbb{P}(W)$ ，即权重的先验分布。我们假设 $W$ 服从正态分布，可以写成 $\displaystyle \mathbb{P}(W) = \frac{1}{\sqrt{2 \pi \sigma_w^2}} e^{-\frac{w^2}{2 \sigma_w^2}}$ 。

而对于 $\displaystyle \mathbb{P}(D \vert W)$ ，它表示的是在给定模型的参数的时候，观察到训练数据集的条件概率。在这里我们做一个假设，即在给定输入数据 input 以及模型参数 $W$ 的时候，准确的 $y$ 的值的分布是一个正态分布。我们记准确的 $y$ 的值是 $t_c$ ，那么我们的假设可以表示为 $\displaystyle p(t_c \vert y_c) = \frac{1}{\sqrt{2 \pi \sigma_D^2}} e^{-\frac{(t_c - y_c)^2}{2 \sigma_D^2}}$ 。

似然函数（log likelihood）

我们的目的是要求使得 $\displaystyle \mathbb{P}(W \vert D)$ 最大的权重参数 $W$ 。因为 log 函数是单调的，所以取 log 之后不改变结果。从而，我们有 $\displaystyle \argmax_{W} \mathbb{P}(W \vert D) = \argmax_{W} \left( \log \left( \mathbb{P}(W \vert D) \right) \right)$ 。而

$\log\left( \mathbb{P}(W \vert D) \right) = \log \mathbb{P}(W) + \log \mathbb{P}(D \vert W) - \log \mathbb{P}(D)$

因为 $\displaystyle \log \mathbb{P}(D)$ 与 $W$ 无关，于是我们有
$\displaystyle \argmax_{W} \big( \log \left( \mathbb{P}(W \vert D) \right) \big) = \argmax_{W} \big( \log \mathbb{P}(W) + \log \mathbb{P}(D \vert W) \big)$

根据之前的分析，我们可以把。 $\displaystyle \log P(W)$ 写成 $\displaystyle -\frac{w^2}{2 \sigma_w^2} - \log (\sqrt{2 \pi}) - \log(\sigma_w)$ 。

而 $\displaystyle \log(\mathbb{P}(D \vert W)) = -\frac{(t_c - y_c)^2}{2 \sigma_D^2} - \log (\sqrt{2 \pi}) - \log (\sigma_D)$

我们求使得 $\displaystyle \mathbb{P}(W \vert D)$ 最大的权重参数 $W$ ，与求使得 $\displaystyle -\log \big( \mathbb{P}(W \vert D) \big)$ 最小的 $W$ 是一样的。省略掉常数项，同时省略掉 $\displaystyle \log(\sigma_w)$ 与 $\displaystyle \log(\sigma_D)$ 的项。我们就有