深度学习系列4：深度神经网络(DNN)，夜空中最亮的星

最新推荐文章于 2024-08-28 11:51:46 发布

haoyutiangang

最新推荐文章于 2024-08-28 11:51:46 发布

阅读量813

点赞数

分类专栏：机器学习深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/haoyutiangang/article/details/105039816

版权

本文深入探讨了深度神经网络(DNN)的概念，包括其层次结构、表示方式和矩阵化的运算。通过正向传播和反向传播的解释，展示了深度学习中参数的求解过程，并特别讨论了输出层的dZ计算。无论是在回归、二分类还是多分类问题中，dZ的求解均表现出一致性，即dZ = A - Y。

摘要由CSDN通过智能技术生成

引言

深度学习(DNN) 功能之强、应用之广，可以说是机器学习里最亮的星。

其实深度学习就是深度神经网络(Deep Neural Networks)，也就是层次比较多的神经网络，今天我们一起来会会它。

一、深度神经网络概述

在这里插入图片描述

深度神经网络包括输入层、多个隐含层和输出层，每层含有多个节点。

每个节点都是一个算法神经元，从上层接收多个输入，按权重加和再用激活函数生成输出，而这个输出又作为下一层的输入。

层次多了网络就更复杂，也就可以学习到更复杂的函数关系。实验表明，只要有足够数量和维度的样本，深度学习总能学习到比较好的结果。

下面我们详细认识一下。

二、深度神经网络的表示

一般说 N 层神经网络，这里的 N 不包括输入层，仅包含隐含层和输出层。

2.1 深度神经网络的索引符号

在深度神经网络中，因为涉及到第几层第几个节点第几个样本，所以要用不同的索引来区分。拿第 l 层的第 i 个节点举例：
$\begin{aligned} z_i^{[l]} &= w^{[l]}a^{[l-1]} + b^{ {l}} \\ a_i^{[l]} &= relu(z_i^{[l]}) \end{aligned}$

上标中括号表示第几层： $a^{[1]}$ , $a^{[2]}$
- $a^{[l]}$ 表示第 l 层的输出，同时也是第 l+1 层的输入
- 输入层也称为第0层，可以写成 $a^{[0]}$
- 输出层 $\hat y$ : 也就是最后一层的输出，表示为 $a^{[L]}$
上标小括号表示第几个样本： $a^{(1)}$ , $a^{(2)}$
下标表示当前层第几个节点(维度)： $a_1$ , $a_2$

2.2 深度神经网络矩阵化

在这里插入图片描述

如图所示，不失一般性，我们推导一下如何从 [l-1] 层到达 [l] 层

第 l-1 层有四个节点(维度)
- $(a^{[l-1]}_1,a^{[l-1]}_2,a^{[l-1]}_3,a^{[l-1]}_4)$
第 l 层的有两个节点(维度)
- $(a^{[l]}_1,a^{[l]}_2$ ）

先考虑一个样本的情况

$z^{[l]}_1 = \begin{bmatrix}w^{[l]}_{11}\;w^{[l]}_{12}\;w^{[l]}_{13}\;w^{[l]}_{14}\end{bmatrix} \begin{bmatrix}a^{[l-1]}_{1} \\ a^{[l-1]}_{2} \\ a^{[l-1]}_{3} \\ a^{[l-1]}_{4}\end{bmatrix} + b^{[l]}_1$

$z^{[l]}_2 = \begin{bmatrix}w^{[l]}_{21}\;w^{[l]}_{22}\;w^{[l]}_{23}\;w^{[l]}_{24}\end{bmatrix} \begin{bmatrix}a^{[l-1]}_{1} \\ a^{[l-1]}_{2} \\ a^{[l-1]}_{3} \\ a^{[l-1]}_{4}\end{bmatrix} + b^{[l]}_2$

将两个公式合为矩阵：
$\begin{bmatrix}z^{[l]}_1 \\ z^{[l]}_2\end{bmatrix}= \begin{bmatrix}w^{[l]}_{11}\;w^{[l]}_{12}\;w^{[l]}_{13}\;w^{[l]}_{14} \\ w^{[l]}_{21}\;w^{[l]}_{22}\;w^{[l]}_{23}\;w^{[l]}_{24}\end{bmatrix} \begin{bmatrix}a^{[l-1]}_{1} \\ a^{[l-1]}_{2} \\ a^{[l-1]}_{3} \\ a^{[l-1]}_{4}\end{bmatrix} + \begin{bmatrix} b^{[l]}_1 \\ b^{[l]}_2 \end{bmatrix}$