南瓜书公式详解------第五章（反向传播、波尔兹曼机）

dengkeaway

于 2024-08-15 16:25:02 发布

阅读量430

点赞数 12

分类专栏：南瓜书公式学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/dengkeaway/article/details/141225463

版权

南瓜书公式学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

式5.2（感知学习参数更新）

$\Delta w_i=\eta(y-\hat{y})x_i$
给出的公式是在线性回归或神经网络权重更新中使用的梯度下降算法的基本形式。这个公式用于根据当前的预测误差调整权重 $w_i$ 。

公式中的符号含义如下：

$\Delta w_i$ ：权重 $w_i$ 的变化量。
$\eta$ ：学习率（Learning Rate），一个超参数，用于控制权重更新的步长。
$y$ ：真实目标值。
$\hat{y}$ ：模型预测值。
$x_i$ ：输入特征值，与权重 $w_i$ 相乘的值。

梯度下降算法的基本思想是最小化预测误差，即 $y$ 和 $\hat{y}$ 之间的差异。这个差异通常称为损失函数（Loss Function），可以是均方误差（Mean Squared Error, MSE）或其他度量预测误差的函数。

权重更新的公式是：

$\Delta w_i = \eta(y - \hat{y})x_i$

这个公式的含义是：

首先计算预测误差，即 $\hat{y}$ 。
将预测误差乘以学习率 $\eta$ ，得到一个标量乘积。
将这个标量乘积乘以特征值 $x_i$ ，得到权重 $w_i$ 的变化量 $\Delta w_i$ 。

然后，使用这个变化量来更新权重：

$w_i := w_i + \Delta w_i$

这个过程在每次迭代中重复执行，直到满足停止条件，例如损失函数的值不再显著减小，或者达到预设的迭代次数。

梯度下降算法是机器学习中用于优化问题的一种常用方法，特别是在训练线性模型和神经网络时。通过适当选择学习率和其他超参数，梯度下降算法可以帮助我们找到损失函数的最小值，从而训练出性能良好的模型。

式5.10 (反向传播1）

$\begin{aligned} g_j&=-\frac{\partial {E_k}}{\partial{\hat{y}_j^k}} \cdot \frac{\partial{\hat{y}_j^k}}{\partial{\beta_j}} \\&=-( \hat{y}_j^k-y_j^k ) f ^{\prime} (\beta_j-\theta_j) \\&=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k) \end{aligned}$

给出的公式是神经网络中反向传播算法的一部分，用于计算损失函数 $E_k$ 关于第 $j$ 个神经元第 $k$ 层输出 $\hat{y}_j^k$ 的梯度 $g_j$ 。这个梯度是权重 $\beta_j$ 更新的关键部分。

公式中的符号含义如下：

$g_j$ ：第 $j$ 个神经元在第 $k$ 层的梯度。
$E_k$ ：第 $k$ 层的损失函数。
$\hat{y}_j^k$ ：第 $j$ 个神经元在第 $k$ 层的预测输出。
$y_j^k$ ：第 $j$ 个神经元在第 $k$ 层的真实输出或目标值。
$\beta_j$ ：第 $j$ 个神经元的输入加权求和（不包括偏置项）。
$\theta_j$ ：第 $j$ 个神经元的阈值或偏置。
$f'(\beta_j - \theta_j)$ ：激活函数 $f$ 对输入 $\beta_j - \theta_j$ 的导数。

梯度计算的步骤如下：

计算损失函数 $E_k$ 关于预测输出 $\hat{y}_j^k$ 的偏导数，这是损失对输出的敏感度。

$\frac{\partial E_k}{\partial \hat{y}_j^k} = -(\hat{y}_j^k - y_j^k)$

计算预测输出 $\hat{y}_j^k$ 关于权重 $\beta_j$ 的偏导数，这通常涉及激活函数 $f$ 的导数。

$\frac{\partial \hat{y}_j^k}{\partial \beta_j} = f'(\beta_j - \theta_j)$

将两个偏导数相乘，得到损失函数 $E_k$ 关于权重 $\beta_j$ 的梯度。

$g_j = -\frac{\partial E_k}{\partial \hat{y}_j^k} \cdot \frac{\partial \hat{y}_j^k}{\partial \beta_j}$

对于 Sigmoid 激活函数，其导数 $f^{'} (x)$ 是 $\hat{y}(1 - \hat{y})$ 。如果 $\hat{y}_j^k$ 是 Sigmoid 函数的输出，那么 $f'(\beta_j - \theta_j) = \hat{y}_j^k(1 - \hat{y}_j^k)$ 。
代入激活函数的导数，得到梯度的最终表达式：

$g_j = \hat{y}_j^k(1 - \hat{y}_j^k)(y_j^k - \hat{y}_j^k)$

这个梯度 $g_j$ 表示了在训练过程中如何调整权重 $\beta_j$ 以减少损失函数 $E_k$ 的值。在实际应用中，这个梯度将用于更新权重，通过梯度下降或其变体进行优化。

式5.12（反向传播2）

$\Delta \theta_j = -\eta g_j$
给出的公式是神经网络中反向传播算法的一部分，用于更新第 $j$ 个神经元的偏置项 $\theta_j$ 。这个更新过程是梯度下降算法的应用，目的是通过最小化损失函数来优化神经网络的参数。

公式中的符号含义如下：

$\Delta \theta_j$ ：第 $j$ 个神经元偏置项的更新量。
$\eta$ ：学习率（Learning Rate），一个超参数，用于控制更新步长的大小。
$g_j$ ：第 $j$ 个神经元的梯度，通常计算为损失函数关于该神经元输出的导数。

偏置项更新的公式是：

$\Delta \theta_j = -\eta g_j$

这个公式的含义是：

计算第 $j$ 个神经元的梯度 $g_j$ ，它反映了损失函数对神经元输出的敏感度。
梯度 $g_j$ 乘以学习率 $\eta$ ，得到更新量 $\Delta \theta_j$ 。
更新量与当前偏置值相减，更新偏置项：

$\theta_j := \theta_j + \Delta \theta_j$

在神经网络的训练过程中，每次迭代都会进行这样的参数更新，直到满足某个停止条件，如损失函数值下降到一个很小的值，或者达到预设的最大迭代次数。

梯度 $g_j$ 的具体计算方法依赖于所使用的激活函数和损失函数。例如，在使用交叉熵损失函数和 Sigmoid 激活函数的情况下，梯度可以表示为：

$g_j = \hat{y}_j(1 - \hat{y}_j)(y_j - \hat{y}_j)$

这里， $\hat{y}_j$ 是神经元的预测输出， $y_j$ 是真实目标值。这个梯度反映了预测输出与目标值之间的差异，用于指导偏置项的更新。

式5.13（反向传播3）

$\Delta v_{ih} = \eta e_h x_i$
给出的公式是神经网络中反向传播算法的一部分，用于更新从输入层到隐藏层的权重 $v_{ih}$ 。这个更新过程同样基于梯度下降算法，目的是通过减少网络的总体误差来优化权重。

公式中的符号含义如下：

$\Delta v_{ih}$ ：从输入单元 $i$ 到隐藏单元 $h$ 的权重的更新量。
$\eta$ ：学习率（Learning Rate），一个超参数，用于控制权重更新的步长。
$e_h$ ：隐藏单元 $h$ 的误差项，通常计算为损失函数关于隐藏层输出的导数乘以隐藏层激活函数的导数。
$x_i$ ：输入层单元 $i$ 的激活值或输入特征值。

权重更新的公式是：

$\Delta v_{ih} = \eta e_h x_i$

这个公式的含义是：

计算隐藏单元 $h$ 的误差项 $e_h$ ，这通常是后向传播过程中计算得到的，反映了损失函数对隐藏层输出的敏感度。
将误差项 $e_h$ 乘以学习率 $\eta$ ，得到一个标量乘积。
将这个标量乘积乘以输入值 $x_i$ ，得到权重 $v_{ih}$ 的更新量 $\Delta v_{ih}$ 。
更新权重：

$v_{ih} := v_{ih} + \Delta v_{ih}$

在神经网络的训练过程中，这样的权重更新会在每次迭代中进行，目的是通过梯度下降或其变体来最小化损失函数。

误差项 $e_h$ 的具体计算方法依赖于网络的架构和所使用的损失函数。在多层网络中，隐藏层的误差项通常由更高层（如输出层）的误差项通过链式法则逐层传递计算得到。这个过程涉及到对每个层的激活函数求导，并将这些导数相乘以传播误差。

式5.14（反向传播4）

$\Delta \gamma_h= -\eta e_h$
给出的公式是神经网络中反向传播算法的一部分，用于更新第 $h$ 个隐藏单元的偏置项 $\gamma_h$ 。这个更新过程旨在通过减少网络的总体误差来优化隐藏层的偏置参数。

公式中的符号含义如下：

$\Delta \gamma_h$ ：第 $h$ 个隐藏单元偏置项的更新量。
$\eta$ ：学习率（Learning Rate），一个超参数，用于控制更新步长的大小。
$e_h$ ：第 $h$ 个隐藏单元的误差项，通常计算为损失函数关于隐藏层输出的导数乘以隐藏层激活函数的导数。

偏置项更新的公式是：

$\Delta \gamma_h = -\eta e_h$

这个公式的含义是：

计算第 $h$ 个隐藏单元的误差项 $e_h$ ，它反映了损失函数对隐藏层输出的敏感度。
将误差项 $e_h$ 乘以学习率 $\eta$ 的负值，得到更新量 $\Delta \gamma_h$ 。
更新隐藏单元的偏置项：

$\gamma_h := \gamma_h + \Delta \gamma_h$

在神经网络的训练过程中，每次迭代都会进行这样的参数更新，目的是通过梯度下降或其变体来最小化损失函数。

误差项 $e_h$ 的具体计算方法依赖于网络的架构和所使用的损失函数。在多层网络中，隐藏层的误差项通常由更高层（如输出层）的误差项通过链式法则逐层传递计算得到。这个过程涉及到对每个层的激活函数求导，并将这些导数相乘以传播误差。通过这种方式，网络可以学习如何调整其隐藏层的偏置项，以改善整体的预测性能。

式5.15（反向传播的误差项计算）

$\begin{aligned} e_h&=-\frac{\partial {E_k}}{\partial{b_h}}\cdot \frac{\partial{b_h}}{\partial{\alpha_h}} \\&=-\sum_{j=1}^l \frac{\partial {E_k}}{\partial{\beta_j}}\cdot \frac{\partial{\beta_j}}{\partial{b_h}}f^{\prime}(\alpha_h-\gamma_h) \\&=\sum_{j=1}^l w_{hj}g_j f^{\prime}(\alpha_h-\gamma_h) \\&=b_h(1-b_h)\sum_{j=1}^l w_{hj}g_j \end{aligned}$

给出的公式描述了在神经网络中反向传播算法里，如何计算第 $h$ 个隐藏单元的误差项 $e_h$ 。这个误差项用于在训练过程中更新隐藏层的权重和偏置。以下是公式的逐步解释：

误差项的定义：
$e_h = -\frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h}$
这里， $E_k$ 是损失函数， $b_h$ 是隐藏单元 $h$ 的输出（在某些文献中可能用 $\hat{y}_h$ 表示）， $\alpha_h$ 是隐藏单元 $h$ 的输入加权和（不包括偏置）， $f'(\alpha_h - \gamma_h)$ 是激活函数关于输入的导数。
链式法则应用：
$e_h = -\sum_{j=1}^l \frac{\partial E_k}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial b_h} f'(\alpha_h - \gamma_h)$
这里， $\beta_j$ 表示第 $j$ 个输出单元的输入加权和（不包括偏置）， $l$ 是输出单元的数量。这步通过链式法则展开，其中 $\frac{\partial \beta_j}{\partial b_h}$ 通常为 0 除非 $b_h$ 直接影响 $\beta_j$ 。
权重因子引入：
$e_h = \sum_{j=1}^l w_{hj} g_j f'(\alpha_h - \gamma_h)$
这里， $w_{hj}$ 是从隐藏单元 $h$ 到输出单元 $j$ 的权重， $g_j$ 是输出单元 $j$ 的梯度。
最终表达式：
$e_h = b_h(1 - b_h) \sum_{j=1}^l w_{hj} g_j$
这里，假设激活函数是 Sigmoid 函数，其导数 $f^{'} (x)$ 是 $\sigma(x) (1 - \sigma(x))$ ，其中 $\sigma(x)$ 是 Sigmoid 函数。因此， $f'(\alpha_h - \gamma_h)$ 可以写作 $b_h(1 - b_h)$ 。

这个误差项 $e_h$ 反映了输出层的误差如何通过网络传播回隐藏层，用于调整隐藏层的权重和偏置以减少整体的误差。在实际应用中，这个误差项会用于计算权重更新量 $\Delta w_{hj}$ 和偏置更新量 $\Delta \gamma_h$ 。

式5.20（波尔兹曼机无向图能量）

$E(\boldsymbol{s})=-\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}w_{ij}s_is_j-\sum_{i=1}^n\theta_is_i$

给出的公式 $E(\boldsymbol{s})$ 表示的是一个能量函数，通常用于描述物理系统、机器学习模型（如Ising模型或Potts模型）中的配置能量。这个特定的能量函数包含两部分组成：配对项和单点项。

公式中的符号含义如下：

$E(\boldsymbol{s})$ ：给定配置 $\boldsymbol{s}$ 的能量。
$n$ ：系统中的粒子或站点数量。
$w_{ij}$ ：粒子 $i$ 和 $j$ 之间的相互作用权重或耦合强度。如果 $i$ 和 $j$ 相邻，则 $w_{ij}$ 通常是非零的。
$s_i$ 和 $s_j$ ：分别是粒子 $i$ 和 $j$ 的状态或自旋，可以是离散的值（如 $+ 1$ 或 $- 1$ ）。
$\theta_i$ ：与粒子 $i$ 相关的局部场或外磁场。
$\sum_{i=1}^{n-1}\sum_{j=i+2}^{n}$ ：表示对所有可能的粒子对 $(i, j)$ 求和，其中 $j > i + 1$ 确保配对项不重复计算。

能量函数可以分解为：

配对项： $-\sum_{i=1}^{n-1}\sum_{j=i+2}^{n}w_{ij}s_is_j$ ，这部分计算了所有非相邻粒子对之间的相互作用能量。如果 $s_i$ 和 $s_j$ 相同，且 $w_{ij}$ 为正，则这对应于一个较低的能量状态；如果它们相反，则对应于较高的能量状态。
单点项： $-\sum_{i=1}^n\theta_is_i$ ，这部分计算了每个粒子与其局部场的相互作用能量。如果 $s_i$ 和 $\theta_i$ 同号，则这对应于较低的能量状态；如果它们异号，则对应于较高的能量状态。

在物理系统中，这个能量函数可以用来描述系统的平衡状态，其中系统倾向于最小化其能量。在机器学习中，特别是在无监督学习或玻尔兹曼机（Boltzmann Machines）中，这样的能量函数可以用来定义数据的概率分布，并通过随机梯度下降等方法进行优化。

式5.22（波尔兹曼机2）

$P(\boldsymbol{v}|\boldsymbol{h})=\prod_{i=1}^dP(v_i\, | \, \boldsymbol{h})$
给出的公式表示在给定隐藏变量 $\boldsymbol{h}$ 的条件下，观测变量 $\boldsymbol{v}$ 的概率分布。这种类型的概率表达式通常出现在概率图模型中，如贝叶斯网络或生成对抗网络（GANs）。

公式中的符号含义如下：

$P(\boldsymbol{v}|\boldsymbol{h})$ ：给定隐藏变量 $\boldsymbol{h}$ 时，观测变量 $\boldsymbol{v}$ 的联合概率。
$d$ ：观测变量的维度数。
$v_i$ ：观测变量中的第 $i$ 个维度。
$\boldsymbol{h}$ ：隐藏变量的向量，可能影响观测变量的值。

公式本身是一个条件概率的乘积形式，表示为：

$P(\boldsymbol{v}|\boldsymbol{h}) = \prod_{i=1}^d P(v_i \, | \, \boldsymbol{h})$

这个公式的含义是：

对于观测变量向量 $\boldsymbol{v}$ 中的每一个维度 $v_i$ ，我们计算在给定隐藏变量 $\boldsymbol{h}$ 的条件下该维度的概率分布 $P(v_i \, | \, \boldsymbol{h})$ 。
然后，我们把所有这些条件概率 $P(v_i \, | \, \boldsymbol{h})$ 相乘，得到整个观测变量向量在给定隐藏变量条件下的联合概率。

这种分解是条件独立性的一个应用，它假设在给定隐藏变量 $\boldsymbol{h}$ 的情况下，观测变量的各个维度是相互独立的。这使得可以单独处理每个维度的概率分布，简化了计算过程。

在机器学习的应用中，这种类型的概率表达式可以用于：

建模观测数据和潜在因素之间的关系。
在生成模型中，如变分自编码器（VAEs）或GANs，生成观测数据。
在贝叶斯网络中，进行概率推理和预测。

式5.23（波尔兹曼机3）

$P(\boldsymbol{h}|\boldsymbol{v})=\prod_{j=1}^qP(h_i\, | \, \boldsymbol{v})$
给出的公式表示在给定观测变量 $\boldsymbol{v}$ 的条件下，隐藏变量 $\boldsymbol{h}$ 的概率分布。这种类型的概率表达式通常出现在概率图模型中，特别是在处理隐变量模型或进行概率推理时。

公式中的符号含义如下：

$P(\boldsymbol{h}|\boldsymbol{v})$ ：给定观测变量 $\boldsymbol{v}$ 时，隐藏变量 $\boldsymbol{h}$ 的联合概率。
$q$ ：隐藏变量的维度数。
$h_i$ ：隐藏变量中的第 $i$ 个维度。
$\boldsymbol{v}$ ：观测变量的向量。

公式本身是一个条件概率的乘积形式，表示为：

$P(\boldsymbol{h}|\boldsymbol{v}) = \prod_{j=1}^q P(h_j \, | \, \boldsymbol{v})$

这个公式的含义是：

对于隐藏变量向量 $\boldsymbol{h}$ 中的每一个维度 $h_j$ ，我们计算在给定观测变量 $\boldsymbol{v}$ 的条件下该维度的概率分布 $P(h_j \, | \, \boldsymbol{v})$ 。
然后，我们把所有这些条件概率 $P(h_j \, | \, \boldsymbol{v})$ 相乘，得到整个隐藏变量向量在给定观测变量条件下的联合概率。

这种分解是条件独立性的一个应用，它假设在给定观测变量 $\boldsymbol{v}$ 的情况下，隐藏变量的各个维度是相互独立的。这使得可以单独处理每个维度的概率分布，简化了计算过程。

在机器学习的应用中，这种类型的概率表达式可以用于：

推断给定观测数据的潜在因素或状态。
在隐变量模型中，如隐马尔可夫模型（HMMs）、动态贝叶斯网络（DBNs）或隐变量图形模型中，进行概率推理。
在贝叶斯推断中，根据观测数据更新对隐藏变量的信念或估计。

通过这种方式，可以处理复杂的数据依赖关系，并在给定观测数据的情况下推断出隐藏变量的分布。然而，需要注意的是，上述公式在实际中可能并不总是成立，因为它假设了隐藏变量的所有维度在给定观测数据时都是条件独立的，这在现实中可能并不适用。在许多情况下，可能需要使用更复杂的方法来计算 $P(\boldsymbol{h}|\boldsymbol{v})$ ，例如使用贝叶斯网络中的条件概率表或通过求解边缘化和条件化问题。

通过这种方式，可以更有效地处理复杂的数据生成过程，并在给定一些观测数据的情况下推断出隐藏变量的分布。

式5.24

$\Delta w=\eta(\boldsymbol{v}\boldsymbol{h}^\mathrm{T}-\boldsymbol{v}’\boldsymbol{h}’^{\mathrm{T}})$

给出的公式用于描述权重更新 $\Delta w$ 的一种方法，这在某些机器学习算法中，特别是那些涉及向量 $\boldsymbol{v}$ 和 $\boldsymbol{h}$ 的算法中使用。这个公式可能用于调整权重，以使得预测输出更接近期望的输出。

公式中的符号含义如下：

$\Delta w$ ：权重的更新量。
$\eta$ ：学习率，一个超参数，用于控制更新的步长。
$\boldsymbol{v}$ ：通常表示输入向量或观测向量。
$\boldsymbol{h}$ ：通常表示隐藏层的输出向量或状态向量。
$\boldsymbol{v}'$ 和 $\boldsymbol{h}'$ ：分别表示调整后的输入向量和隐藏层输出向量，或者可以理解为更新后的目标向量和相应的隐藏层输出。

权重更新的公式是：

$\Delta w = \eta(\boldsymbol{v}\boldsymbol{h}^\mathrm{T} - \boldsymbol{v}'\boldsymbol{h}'^\mathrm{T})$

这个公式的含义是：

计算当前权重下，输入向量 $\boldsymbol{v}$ 和隐藏层输出向量 $\boldsymbol{h}$ 的外积（或称为Kronecker积），这代表了权重矩阵的一个候选更新。
计算调整后的输入向量 $\boldsymbol{v}'$ 和隐藏层输出向量 $\boldsymbol{h}'$ 的外积，这代表了理想情况下的权重更新。
从当前权重更新量中减去理想情况下的权重更新量，得到权重的实际更新量 $\Delta w$ 。
将学习率 $\eta$ 乘以这个差值，得到最终的权重更新量。

然后，可以使用这个更新量来调整权重矩阵：

$\Delta w$

这个过程在每次迭代中重复执行，目的是通过梯度下降或其变体来最小化损失函数。

需要注意的是，这个公式在不同的上下文中可能有不同的解释，具体取决于 $\boldsymbol{v}$ 和 $\boldsymbol{h}$ 的具体含义以及学习算法的类型。在某些情况下， $\boldsymbol{v}'$ 和 $\boldsymbol{h}'$ 可能代表了更新后的权重或经过某种优化策略处理的向量。