Notes on NNDL(Neural Networks and Deep Learning)

最新推荐文章于 2024-03-19 09:46:00 发布

Vision_Learning

最新推荐文章于 2024-03-19 09:46:00 发布

阅读量1.1k

点赞数 2

分类专栏： Old 文章标签：深度学习

本文链接：https://blog.csdn.net/deepvl/article/details/71734032

版权

Old 专栏收录该内容

75 篇文章 0 订阅

订阅专栏

关于代价函数的假设：
(1) 代价函数可以被写成一个在每个训练样本 $x$ 上的代价函数 $C_x$ 的均值 $C=\frac{1}{n}\sum_{x}C_x$ . 反向传播实际上是对一个独立的训练样本计算了 $\frac{\partial C_x}{\partial \omega}$ 和 $\frac{\partial C_x}{\partial b}$ . 然后通过在所有训练样本上进行平均化得到 $\frac{\partial C}{\partial \omega}$ 和 $\frac{\partial C}{\partial b}$ . 实际上，有了这个假设，我们会认为训练样本 $x$ 已经被固定住了，丢掉其下标，将代价函数 $C_x$ 看作 $C$ .
(2) 代价可以写成神经网络输出的函数 $cost\,C=C(a^L)$
反向传播的四个基本方程

反向传播其实是对权重和偏差变化影响代价函数过程的理解，最终的目的就是计算偏导数 $\frac{\partial C}{\partial \omega_{jk}^l}$ 和 $\frac{\partial C}{\partial b_j^l}$ . 引入一个中间量， $\delta_j^l$ ，定义它为 $l^{th}$ 层第 $j^{th}$ 个神经元上的误差.

假设，我们对 $l^{th}$ 层的第 $j^{th}$ 个神经元的操作进行一些变化，比如，在神经元的带权输入上增加很小的变化 $\Delta z_j^l$ ，使得神经元输出由 $\delta(z_j^l)$ 变为 $\delta(z_j^l+\Delta z_j^l)$ . 这个变化将会向后面的层进行传播，最终导致整个代价函数产生 $\frac{\partial C}{\partial z_j^l}\Delta z_j^l$ 的变化(可以从微分的数学定义进行验证). 此时，如果 $\frac{\partial C}{\partial z_j^l}$ 有一个很大的值（或正或负），则可以通过选择与 $\frac{\partial C}{\partial z_j^l}$ 符号相反的 $\Delta z_j^l$ 来降低代价。相反的，如果 $\frac{\partial C}{\partial z_j^l}$ 接近 $0$ ，那么无法通过更改 $\Delta z_j^l$ 来降低代价，此时可以认为神经元已经很接近最优了（这两种假设只能在 $\Delta z_j^l$ 很小的时候才能够满足）。因此，可以有一种启发式的认识： $\frac{\partial C}{\partial z_j^l}$ 是神经元误差的度量。根据以上这些描述，定义 $l$ 层的第 $j^{th}$ 个神经元上的误差 $\delta_j^l$ 为：

δlj≡∂C∂zlj

这样，我们就可以使用 δl 表示关联于 l 层的误差向量。反向传播算法会告诉我们如何计算每层的δl，然后将这些误差和最终我们需要的量 ∂C∂ωljk 和 ∂C∂blj 联系起来.
- 输出层误差的方程
  
  $δ L j = \partial C \partial a L j σ' (z L j)$ $\delta_j^L=\frac{\partial C}{\partial a_j^L}\sigma\prime(z_j^L)$
  这是一个很自然的表达式。右边第一项 $\frac{\partial C}{\partial a_j^L}$ 表示代价随着 $j^{th}$ 输出激活值的变化而变化的速度。如果 $C$ 不太依赖一个特定的输出神经元 $j$ ，那么 $\delta_j^L$ 就会很小。第二项 $\sigma\prime(z_j^L)$ 刻画了在 $z_j^L$ 处激活函数 $\sigma$ 变化的速度.
  
  证明：
  $δ L j = \partial C \partial z L j = \sum k \partial C \partial a L k \cdot \partial a L k \partial z L j$ $\delta_j^L=\frac{\partial C}{\partial z_j^L}=\sum_k \frac{\partial C}{\partial a_k^L} \cdot \frac{\partial a_k^L}{\partial z_j^L}$ ，这里的求和是对输出层中的所有神经元 $k$ 进行的. 当然，第 $k$ 个神经元的输出激活 $a_k^L$ 只依赖于第 $j$ 个神经元的加权输入（当 $k==j$ ）, 因此，当 $k\neq j$ 时， $\frac{\partial z_k^L}{\partial z_j^L}$ 消失。从而有： $δ L j = \partial C \partial z L j = \sum k \partial C \partial a L k \cdot \partial a L k \partial z L j = \partial C \partial a L j \cdot \partial a L j \partial z L j$ $\delta_j^L=\frac{\partial C}{\partial z_j^L}=\sum_k \frac{\partial C}{\partial a_k^L} \cdot \frac{\partial a_k^L}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\cdot \frac{\partial a_j^L}{\partial z_j^L}$ .
  同时，我们有 $a_j^L=\sigma(z_j^L)$ , 则 $\frac{\partial a_j^L}{\partial z_j^L}=\sigma\prime(z_j^L)$ . 最终我们有：
  $δ L j = \partial C \partial a L j \cdot σ' (z L j)$ $\delta_j^L=\frac{\partial C}{\partial a_j^L} \cdot \sigma\prime(z_j^L)$ 证毕.
- 使用下一层的误差 $\delta^{l+1}$ 来表示当前层的误差 $\delta^l$
  
  $δ L = ((ω L + 1) T δ L + 1) ⊙ σ' (z L)$ $\delta^L=((\omega^{L+1})^T\delta^{L+1})\odot \sigma\prime(z^L)$
  其中 $(\omega^{L+1})^T$ 是 $(L+1)^{th}$ 层的权重矩阵 $\omega^{L+1}$ 的转置. 有了这个方程与第一个方程，我们就可以计算任何层的误差了：首先使用第一个方程计计算 $\delta^L$ ，然后使用第二个方程来计算 $\delta^{L-1}$ ，然后不断使用第二个方程，就可以一步一步地反向传播完整个网络.
  证明：因为 $\delta_j^L=\frac{\partial C}{\partial z_j^L}$ ，则有 $\delta_k^{L+1}=\frac{\partial C}{\partial z_k^{L+1}}$
  $δ L j = \partial C \partial z L j = \sum k \partial C \partial z L + 1 k \cdot \partial z L + 1 k \partial z l j = \sum k \partial z L + 1 k \partial z L j \cdot δ L + 1 k$ $\delta_j^L=\frac{\partial C}{\partial z_j^L}=\sum_k \frac{\partial C}{\partial z_k^{L+1}} \cdot \frac{\partial z_k^{L+1}}{\partial z_j^l}=\sum_k \frac{\partial z_k^{L+1}}{\partial z_j^L} \cdot \delta_k^{L+1}$
  根据定义，我们有 $z L + 1 k \sum j ω L + 1 k j + b L + 1 k = \sum j ω L + 1 k j σ (z L J) + b L + 1 k$ $z_k^{L+1}\sum_j \omega_{kj}^{L+1}+b_k^{L+1}=\sum_j \omega_{kj}^{L+1}\sigma(z_J^L)+b_k^{L+1}$ 则可以得到 $\partial z L + 1 k \partial z L j = ω L + 1 k j σ' (z L j)$ $\frac{\partial z_k^{L+1}}{\partial z_j^L}=\omega_{kj}^{L+1}\sigma\prime(z_j^L)$
  因此, $δ L j = \sum k ω L + 1 k j δ L + 1 k σ' (z L j)$ $\delta_j^L = \sum_k \omega_{kj}^{L+1}\delta_k^{L+1}\sigma\prime(z_j^L)$
  证毕.
- 代价函数关于网络中任意偏差的改变率
  
  $\partial C \partial b L j = δ L j$ $\frac{\partial C}{\partial b_j^L}=\delta_j^L$
- 代价函数关于任何一个权重的改变率
  
  $\partial C \partial ω L j k = a L - 1 k δ L j$ $\frac{\partial C}{\partial \omega_{jk}^L}=a_k^{L-1}\delta_j^L$
反向传播算法
反向传播方程给出了一种计算代价函数梯度的方法，其显示描述如下：
(1) 输入 $x$ ：为输入层设置对应的激活值 $a^L$
(2) 前向传播：对每个 $l=2,3,...,L$ , 计算相应的 $Z^l=\omega^l \cdot a^{l-1}+b^l$ 和 $a^l=\sigma(z^l)$
(3) 输出层误差 $\delta^L$ ：计算向量 $\delta^L=\nabla_a C\odot \sigma\prime(z^L)$
(4) 反向误差传播：对每个 $l=L-1,L-2,...,2$ , 计算 $\delta^l=((\omega^{l+1})^T\delta^{l+1})\odot \sigma\prime(z^l)$
(5) 输出：代价函数的梯度由 $\frac{\partial C}{\partial \omega_{jk}^l}=a_k^{l-1}\cdot \delta_j^l$ 和 $\frac{\partial C}{\partial b_j^l}=\delta_j^l$ .
反向传播代码注释

    def backprop(self, x, y):
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
# 前向传播
        activation = x
        activations = [x] # list to store all the activations, layer by layer
        zs = [] # list to store all the z vectors, layer by layer
        for b, w in zip(self.biases, self.weights):
            z = np.dot(w, activation)+b # weighted input
            zs.append(z)
            activation = sigmoid(z) $ activations
            activations.append(activation)
# 反向传播
        delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(zs[-1]) # cost_derivative是代价函数对激活值的导数. 此处的delta是第L层的输出误差.
        nabla_b[-1] = delta # 第L层的代价相对于偏置的导数
        nabla_w[-1] = np.dot(delta, activations[-2].transpose()) # 第L层的代价相对于权重的导数

        #进行反向传播，计算L-1,L-2,...,2的导数
        for l in xrange(2, self.num_layers):
            z = zs[-l] # 加权输入
            sp = sigmoid_prime(z) # 加权输入的导数
            delta = np.dot(self.weights[-l+1].transpose(), delta) * sp # 当前层的delta(输出误差)
            nabla_b[-l] = delta #当前层的导数（相对于偏置）
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())#当前层的导数（相对于权重）
        return (nabla_b, nabla_w)