TensorFlow可微分编程实践3---交叉熵与代价函数微分

最新推荐文章于 2024-06-28 00:52:59 发布

最老程序员闫涛

最新推荐文章于 2024-06-28 00:52:59 发布

阅读量1.5k

点赞数

分类专栏：深度学习人工智能文章标签： tensorflow eager execution auto differentation differentiable programming

本文链接：https://blog.csdn.net/Yt7589/article/details/80791109

版权

人工智能同时被 2 个专栏收录

45 篇文章 1 订阅

订阅专栏

深度学习

41 篇文章 8 订阅

订阅专栏

在上篇博文中，我们讲述怎样处理第 $l-1$ 层到第 $l$ 层的前向传输和反向求导，我们还没有讲述关于输出层的处理技术。在这里，我们还以MNIST手写数字识别为例，网络计算图如下所示：
这里写图片描述
当我们计算出输出层的输出 $\boldsymbol{y} \in R^{10}$ 时，表示输入图像 $\boldsymbol{x}$ 是0~9这10个数字的概率。此时输入图像 $\boldsymbol{x}$ 对应的正确结果 $\hat{\boldsymbol{y}} \in R^{10}$ ，假设该数为 $r$ ，则 $\hat{y}_r=1$ ，其余维0，即 $\hat{\boldsymbol{y}} =\{0, 0, ..., 1, ..., 0\}$ ，其中主1的是第 $r$ 维。
我们首先处理损失函数，这里我们假设不考虑添加调整项的情况，我们的代价函数取交叉熵（cross entropy）函数，根据交叉熵定义：

\begin{matrix} (1) & H (p, q) = E_{p} (- \log q) = H (p) + K L (p ‖ q) \end{matrix}

$\begin{equation} H(p, q)=E_p(-\log{q})=H(p)+KL(p \Vert q) \end{equation}$
对离散值情况，交叉熵（cross entropy）可以表示为：

H (p, q) = - \sum k = 1 K p (k) log q (k) (2)

$\begin{equation} H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)} \end{equation}$
在这里我们设正确值

y^ y ^ $\hat{\boldsymbol{y}}$ 的分布为p，而计算值

y=a2 y = a 2 $\boldsymbol{y}=\boldsymbol{a}^2$ 的分布为q，假设共有

K=10 K = 10 $K=10$ 个类别，并且假设第

r r $r$ 维为正确数字，则代价函数的值为：

\begin{matrix} (3) & C = H (p, q) = - \sum_{k = 1}^{K} p (k) \log q (k) = - (0 * \log y_{1} + 0 * \log y_{2} + . . . + 1 * \log y_{r} + . . . + 0 * \log y_{10}) = - \log y_{r} \end{matrix}

$\begin{equation} C=H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)}=-(0*\log{y_1}+0*\log{y_2}+...+1*\log{y_r}+...+0*\log{y_{10}}) \\ =-\log{y_r} \end{equation}$
我们可以将代价函数值视为

R1 R 1 $R^{1}$ 的向量，我们对

y y $\boldsymbol{y}$ 求偏导，根据Jacobian矩阵定义，结果为

R1×N2=R1×10 R 1 × N 2 = R 1 × 10 $R^{1 \times N_2}=R^{1 \times 10}$ 的1行10列的矩阵。结果如下所示：

\partial C \partial y = [00 . . . - 1 y r . . . 0] (4)

$\begin{equation} \frac{\partial{C}}{\partial{y}}=\begin{bmatrix} 0 & 0 & ... & -\frac{1}{y_r} & ... & 0 \end{bmatrix} \end{equation}$
其只有正确数字对应的第r维不为0，其余均为零。
接下来我们来求：

∂y∂z2 ∂ y ∂ z 2 $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}$ ，因为

y y $\boldsymbol{y}$ 和

a2 a 2 $\boldsymbol{a}^2$ 均为向量，可以直接使用Jacobian矩阵定义得：

\partial y \partial z 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial z 2 1 \partial y 2 \partial z 2 1 . . . \partial y N 2 \partial z 2 1 \partial y 1 \partial z 2 2 \partial y 2 \partial z 2 2 . . . \partial y N 2 \partial z 2 2 . . . . . . . . . . . . \partial y 1 \partial z 2 N 2 \partial y 2 \partial z 2 N 2 . . . \partial y N 2 \partial z 2 N 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (5)

$\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}=\begin{bmatrix} \frac{\partial{y_1}}{\partial{z^2_1}} & \frac{\partial{y_1}}{\partial{z^2_2}} & ... & \frac{\partial{y_1}}{\partial{z^2_{N_2}}} \\ \frac{\partial{y_2}}{\partial{z^2_1}} & \frac{\partial{y_2}}{\partial{z^2_2}} & ... & \frac{\partial{y_2}}{\partial{z^2_{N_2}}} \\ ... & ... &... &... \\ \frac{\partial{y_{N_2}}}{\partial{z^2_1}} & \frac{\partial{y_{N_2}}}{\partial{z^2_2}} & ... & \frac{\partial{y_{N_2}}}{\partial{z^2_{N_2}}} \\ \end{bmatrix} \end{equation}$
接下来

∂z2∂W2 ∂ z 2 ∂ W 2 $\frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}$ 、

∂z2∂a1 ∂ z 2 ∂ a 1 $\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{a}^1}}$ 、

∂z2∂b2 ∂ z 2 ∂ b 2 $\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{b}^2}}$ 就是上一篇博文中讲述的内容。这里我们简单讲解下代价函数和代价函数反向求导的问题。代码如下所示：

@tf.custom_gradient
def cross_entropy(y, y_):
    # 找出y_中不等于0的下标值
    idx = np.nonzero(y_)[0][0]
    def grad_fn(dy):
        grad_C = np.zeros(y.shape[0])
        grad_C[idx] = - 1.0 / y[idx]
        return tf.constant(grad_C)
    return -math.log(y[idx]), grad_fn

def test003(args={}):
    tf.enable_eager_execution()
    tfe = tf.contrib.eager
    print('代价函数求导...')
    y = np.zeros((10))
    for idx in range(10):
        y[idx] = 0.01
    y[2] = 0.31
    y[3] = 0.11
    y[8] = 0.21
    y[1] = 0.11
    y[4] = 0.21
    y_ = np.array([0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
    print('y:{0}'.format(y))
    print('y_:{0}'.format(y_))
    C = cross_entropy(y, y_)
    print('代价函数值：{0}'.format(C.numpy()))
    grad_C1 = tfe.gradients_function(cross_entropy)
    pC_py = grad_C1(y, y_)
    print('pC_py:{0}'.format(pC_py[0].numpy()))

运行结果如下所示：
这里写图片描述
在求 $\frac{\partial{\boldsymbol{y}^2}}{\partial{\boldsymbol{z}^2}}$ 时，根据我们的定义，输出层采用的是交叉熵（Cross Entropy）函数，形式为：

y i = e z 2 i \sum N 2 k = 1 e z 2 k (3.3.001)

$\begin{equation} \tag{3.3.001} y_i=\frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \end{equation}$
下面我们来求

∂yi∂z2j ∂ y i ∂ z j 2 $\frac{\partial{y_i}}{\partial{z^2_j}}$ ，我们分为

i≠j i ≠ j $i \neq j$ 和

i=j i = j $i=j$ 两种情况来讨论。
当

i=j i = j $i = j$ 时：

\partial y i \partial z 2 i = \partial \partial z 2 i (e z 2 i \sum N 2 k = 1 e z 2 k) = e z 2 i \sum N 2 k = 1 e z 2 k - (e z 2 i \sum N 2 k = 1 e z 2 k) 2 (3.3.002)

$\begin{equation} \tag{3.3.002} \frac{\partial{y_i}}{\partial{z^2_i}}=\frac{\partial{}}{\partial{z^2_i}}\bigg( \frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \bigg)=\frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}}-\bigg( \frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \bigg)^2 \end{equation}$
当

i≠j i ≠ j $i \neq j$ 时：

\partial y i \partial z 2 j = \partial \partial z 2 j (e z 2 i \sum N 2 k = 1 e z 2 k) = - e z 2 i e z 2 j ( \sum N 2 k = 1 e z 2 k ) 2 (3.3.002)

$\begin{equation} \tag{3.3.002} \frac{\partial{y_i}}{\partial{z^2_j}}=\frac{\partial{}}{\partial{z^2_j}}\bigg( \frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \bigg)=-\frac{e^{z^2_i}e^{z^2_j}}{(\sum_{k=1}^{N_2}e^{z^2_k})^2} \end{equation}$
按照上面的公式，我们可以求出

∂y∂z2∈R10×10 ∂ y ∂ z 2 ∈ R 10 × 10 $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}} \in R^{10 \times 10}$ 的方阵。
根据定义有：

\partial C \partial W 2 = \partial C \partial y \cdot \partial y \partial z 2 \cdot \partial z 2 \partial W 2 (3.3.003)

$\begin{equation} \tag{3.3.003} \frac{\partial{C}}{\partial{W^2}}=\frac{\partial{C}}{\partial{\boldsymbol{y}}} \cdot \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}} \cdot \frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}} \end{equation}$
其维数为

R1×10×R10×10×R10×10×512=R1×10×512 R 1 × 10 × R 10 × 10 × R 10 × 10 × 512 = R 1 × 10 × 512 $R^{1 \times 10} \times R^{10 \times 10} \times R^{10 \times 10 \times 512} = R^{1 \times 10 \times 512}$ ，即可得到每个第1层到第2层连接权值的导数，根据梯度下降算法，就可以求出新的连接权值了。
到目前为止，我们已经将所有多层感知器（MLP）模式中用到的技术，全部讲述完成了，有了这些基本知识之后，我们就可以搭建一个完整的多层感知器（MLP）模型了，在下一节中我们将搭建一个最基本的多层感知器模型用于MNIST手写数字识别。