3、深度神经网络学习笔记

最新推荐文章于 2023-10-25 13:49:51 发布

L丫丫

最新推荐文章于 2023-10-25 13:49:51 发布

阅读量295

点赞数

文章标签：神经网络

本文链接：https://blog.csdn.net/mynameislfc/article/details/105473041

版权

一、什么是深度神经网络

通常将逻辑回归函数以及下述的双层神经网络（输入层不算）定义为浅层神经网络，因为它不具备学习的能力。将一些多层且复杂的神经网络定义为深度神经网络。
浅层神经网络模型：
在这里插入图片描述

深度神经网络模型

一些符号的定义：

在下面的描述中，这些符号将被运用到
$n^{[l]}$ ：代表第 $l$ 层的节点数， $l = 1$ 是第一个隐藏层，输入层为第0层。
$a^{[l]}$ ：代表第 $l$ 层中的激活函数。在下述的正向传播中将会提到激活函数：
$a^{[l]}=g^{[l]}(z^{[l]})$
其中： $z^{[l]}=w^{[l]}x+b^{[l]}$ （w和b都代表第 $l$ 层中z函数的权重）
$x$ 为输入函数，也是第0层的激活函数， $x=a^{[0]}$ 。
最后一层的激活函数为 $a^{[l]}=\hat y$ ，即 $a^{[l]}$ 为预测输出。

二、前向和反向传播过程

1、前向传播过程

假设在一个 $l$ 层的神经网络中：
输入为 $a^{[l-1]}$ ,输出为 $a^{[l]}$ ，每一层的缓存为 $z{[l]}$ （即为 $w^{[l]},b^{[l]}$ ）。
前向传播的过程为：
$z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$
$a^{[l]}=g^{[l]}(z^{[l]})$ （g为激活函数）
将正向传播过程进行向量化，则可表示为：
$z^{[l]}=w^{[l]}A^{[l-1]}+b^{[l]}$
$A^{[l]}=g^{[l]}(z^{[l]})$

2、反向传播过程

假设在一个 $l$ 层的神经网络中：
输入为 $da^{[l]}$ ,输出为 $da^{[l-1]}$ , $dW^{[l]},db^{[l]}$ .
$dz^{[l]}=da^{[l]}*g^{[l]'}(z^{[l]})$
$dw^{[l]}=dz^{[l]}a^{[l-1]}$
$db^{[l]}=dz^{[l]}$
$da^{[l-1]}=w^{[l]T}dz^{[l]}$
将反向传播过程进行向量化：
$dz^{[l]}=dA^{[l]}*g^{[l]'}(z^{[l]})$
$dw^{[l]}=\frac{1}{m}dz^{[l]}A^{[l-1]T}$
$db^{[l]}=\frac{1}{m}np.sum(dz^{[l]},axis=1,)$
$dA^{[l-1]}=w^{[l]T}dz^{[l]}$

3、深度神经网络的整体过程（正向、反向）

在这里插入图片描述

3、深度网络的前向传播过程

在这里插入图片描述
对于上图中的深度神经网络来说：
输入为x，也可以说为 $a^{[0]}$ 。
正向传播过程可以被描述为：
$z^{[1]}=w^{[1]}a^{[0]}+b^{[1]}$
$a^{[1]}=g^{[1]}(z^{[1]})$

$z^{[2]}=w^{[2]}a^{[1]}+b^{[2]}$
$a^{[2]}=g^{[2]}(z^{[2]})$
一直持续上述步骤到最后的输出层
$z^{[4]}=w^{[4]}a^{[3]}+b^{[4]}$
$a^{[4]}=g^{[4]}(z^{[4]})=\hat y$

对于多个样本的情况下，采用向量的形式进行表示：
若有m个输入样本：
正向传播过程可以被描述为：
$z^{[1]}=w^{[1]}A^{[0]}+b^{[1]}$
$A^{[1]}=g^{[1]}(z^{[1]})$

$z^{[2]}=w^{[2]}A^{[1]}+b^{[2]}$
$A^{[2]}=g^{[2]}(z^{[2]})$
$\hat Y=g^{[4]}(z^{[4]})=A^{[4]}$
输入和权重w都为列向量，式中的 $w^{[l]}$ 是转置后w矩阵的统称
z的输出样式为下图所示
在这里插入图片描述
其中，每一列向量代表每一个样本在第2层的输出