深度学习入门~为什么使用深层表示

「已注销」

于 2021-04-26 16:23:21 发布

阅读量167

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/fatfairyyy/article/details/116158372

版权

25 篇文章 2 订阅

订阅专栏

在这里插入图片描述
如上图所示，上图是一个简化的进行人脸识别的神经网路，我们可以将它看作：

另一种理解：如果要将x₁ ~ x_n进行异或XOR运算，如果使用深层神经网络，可以将时间复杂度降低到O(logn)，但是如果使用浅层神经网络，隐藏层中神经元的数量会大幅度上升，使时间复杂度变为O(2ⁿ)。

这是一个较浅的神经网络，我们随机选择一层，曾这一层的计算着手。
在这里插入图片描述

在第l层，我们有参数W^[l],b^[l]，正向传播里有输入的激活函数，输入是前一层的激活函数值a^[l-1]，输出是a^[l]。即：Z^[l] = W^[l]*a^[l-1] + b^[l];a^[l] = g^[l](z^[l])。这两个算式是每一层神经网络要做的，它们使用向量化实现。之后将z^[l]放入缓存中，这对正向传播和之后的反向传播都有好处。
之后是反向传播。输入是da^[l]，输出是da^[l-1]。注意，此处的输入实际是da^[l]以及缓存中的z^[l]，而输出除了da^[l-1]还有dW^[l]，db^[l]以用于实现梯度下降。
正向传播和反向传播所做的事情和二者之间的关联如图：

因此，如果我们能够实现方框中所描述功能的函数，那么我们就能成功实现神经网络。

从前向传播说起：

在缓存z^[l]的同时，同时缓存w^[l]和b^[l]也可使后续的反向传播更便捷。
有了这些参数，我们就可以得到每一步正向传播的输出：z^[l] = w^[l]*a^[l-1] + b^[l];a^[l] = g^[l](z^[l])，向量化的版本为：Z^[l] = W^[l]*A^[l-1] + b^[l];A^[l] = g^[l](Z^[l])。
之后是反向传播：

输入为da^[l]，输出为da^[l-1],dW^[l],db^[l]。
计算的过程为：dz^[l] = da^[l]*g^[l]'(z^[l])，注意，此处是g^[l]的导数g^[l]'。而dW^[l] = dz^[l]*a^[l-1];db^[l] = dz^[l];da^[l-1] = w^[l]T * dz^[l]，注意此处是w^[l]的转置w^[l]T。向量化的版本为把这些向量都换成对应的矩阵，注意对于dW和db都需要乘以1/m，因为训练集的容量为m。