吴恩达深度学习【听课笔记】5. 神经网络

ChenY.Liu

已于 2023-05-07 16:09:39 修改

阅读量156

点赞数

分类专栏：吴恩达文章标签：深度学习神经网络笔记

于 2023-05-07 11:33:10 首次发布

本文链接：https://blog.csdn.net/qq_43596950/article/details/130540500

版权

吴恩达专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文介绍了神经网络的基本结构，包括隐藏层和输出层，以及如何通过向量化简化计算。讨论了激活函数的作用，如sigmoid、tanh和ReLU，以及它们的导数。进一步解释了梯度下降法在神经网络中的应用，前向传播和反向传播的过程，以及参数更新的规则。最后提到了随机初始化的重要性，以避免隐藏单元的协同效应。

摘要由CSDN通过智能技术生成

神经网络预览

画出如下所示的两层神经网络

在这里插入图片描述

用中括号上标 ${[i]}$ 表示神经网络的第几层，用括号上标 ${(i)}$ 表示第 $i$ 个训练样本。在网络中也拥有计算图中的backward和forward机制，backward就是求偏导计算出 $W^{[i]}$ 和 $b^{[i]}$ 的值。

双层神经网络

如下是一个双层神经网络：
包括输出层、隐藏层(hidden layer)、输出层
其中，隐藏层有参数 $W^{[1]} [4,3]$ 和 $b^{[1]}[4,1]$ 。其中， $[4, 3]$ 是因为有隐藏层有4个神经元，有3个输入值 $x$ ，即，每一个隐藏层的神经元有参数 $w^{[1]}[1,3]$ 和 $b^{[1]}[1,1]$ 。
$\left ( \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right ), W_n = \left ( \begin{matrix} w_1 & w_2 & w_3 \\ \end{matrix} \right ), n \in (1,2,3,4)$
输出层有参数 $W^{[2]}[1,4]$ 和 $b^{[2]}[1,1]$ ，同理，输出层只有一个神经元，但有四个输入值。

双层神经网络的计算

对如下双层神经网络列出算式：
其中每一个 $w_n^{[1]}$ 都是一个 $[1, 3]$ 向量
$w_1^{[1]} = \left ( \begin{matrix} w_1 \\ w_2 \\ w_3 \end{matrix} \right ), x = \left ( \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right ), b = b_1$
$z_1^{[1]} = w_1^{[1]T}x+b= \left ( \begin{matrix} w_1\times x_1+b & w_2\times x_2 + b & w_3\times x_3+b \end{matrix} \right )$
如果将四个神经元组合在一起， $z^{[1]}$ 就是一个 $[4, 3]$ 的矩阵
$z^{[1]} = \left ( \begin{matrix} w_1^{[1]}\times x_1+b^{[1]} & w_2^{[1]}\times x_2 + b^{[1]} & w_3^{[1]}\times x_3+b^{[1]} \\ w_1^{[2]}\times x_1+b^{[2]} & w_2^{[2]}\times x_2 + b^{[2]} & w_3^{[2]}\times x_3+b^{[2]} \\ w_1^{[3]}\times x_1+b^{[3]} & w_2^{[3]}\times x_2 + b^{[3]} & w_3^{[3]}\times x_3+b^{[3]} \\ w_1^{[4]}\times x_1+b^{[4]} & w_2^{[4]}\times x_2 + b^{[4]} & w_3^{[4]}\times x_3+b^{[4]} \end{matrix} \right )$

向量化

有下列代码实现：
向量化去掉for循环
前面已经定义了向量化的参数：
$w^{[1]} = \left ( \begin{matrix} w_1 \\ w_2 \\ w_3 \end{matrix} \right ), x = \left ( \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right ), b = b_1$
$z_1^{[1]} = w_1^{[1]T}x+b= \left ( \begin{matrix} w_1\times x_1+b & w_2\times x_2 + b & w_3\times x_3+b &w_4\times x_3+b \end{matrix} \right )$
$z^{[1]} = \left ( \begin{matrix} w_1^{[1]}\times x_1+b^{[1]} & w_2^{[1]}\times x_2 + b^{[1]} & w_3^{[1]}\times x_3+b^{[1]} \\ w_1^{[2]}\times x_1+b^{[2]} & w_2^{[2]}\times x_2 + b^{[2]} & w_3^{[2]}\times x_3+b^{[2]} \\ w_1^{[3]}\times x_1+b^{[3]} & w_2^{[3]}\times x_2 + b^{[3]} & w_3^{[3]}\times x_3+b^{[3]} \\ w_1^{[4]}\times x_1+b^{[4]} & w_2^{[4]}\times x_2 + b^{[4]} & w_3^{[4]}\times x_3+b^{[4]} \end{matrix} \right )$
同样将 $a$ 向量化:
$a^{[1]}=\begin{matrix}\{\sigma(z_1^{{[1]}}) & \sigma(z_2^{{[1]}}) & \sigma(z_3^{{[1]}})&\sigma(z_4^{{[1]}})\}\end{matrix}$
第一层（隐藏层）的可以简化为：
$z^{[1]} = w^{[1]T}x+b$
$a^{[1]} = \sigma(z^{[1]})$
同理，向量化第二层（输出层）的参数并简化计算：
$w^{[2]} = \begin{matrix} (w_1 & w_2 & w_3 & w_4) \end{matrix}$

$z^{[2]} = w^{[2]}\times a^{[1]} + b$
$a^{[2]} = \sigma(z^{[2]})$

激活函数

在前面的例子中，都隐藏层和输出层中都是用了 $s i g m o i d$ 函数，但实践中， $s i g m o i d$ 通常只用于二分分类的输出层
其他常见的激活函数：

$t anh$ 函数：
$\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$

我们在隐藏层中通常用此函数代替 $s i g m o i d$ ，但 $t anh$ 同样存在缺点，当 $z$ 值过大和过小时， $t anh$ 的导数会接近0，这会拖慢梯度下降的速度。所以比 $t anh$ 更常用的是 $R e Lu$ 函数。

2. $R e Lu$ 函数:
$R e Lu = ma x (0, z)$
在这里插入图片描述

修正线性单元（rectified linear unit）是一个很简洁的函数，在把负值换成0，正值并不变。如果你不知道用什么函数，那你可以用这个函数。

3. $l e ak l y R e Lu$ 函数：
$max(0.01\times z, z)$
在这里插入图片描述

这是ReLu的修改版，去掉了负值为0的情况。

激活函数的作用

简单的说，在某些场景中可以不使用激活函数，或者使用线性的激活函数（即输出值等于输入值，不对输入值进行改变）。但在绝大多数场景中，我们需要激活函数（准确的说是非线性激活函数）使计算出的数据更加多样（原话说的是‘interesting’）。

sigmoid、tanh、ReLu求导

sigmoid
$\sigma = \frac{1}{1+e^{-z}}$
$\frac{d\sigma}{dz} = \frac{1}{(1+e^{-z})^2}\times e^{-z} = \frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})$
$\frac{d\sigma}{dz} = \sigma\times(1-\sigma)$
tanh
$\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$

$\frac{d}{dz}tanh=\frac{(e^z + e^{-z}) \times (e^z+e^{-z}) - (e^z-e^{-z})\times(e^z-e^{-z})} {(e^z+e^{-z})^2}$

$\frac{d}{dz}tanh = 1 - (tanh(z))^2$

ReLu
$\begin{cases} 0, & \text{z < 0} \\ z, & \text{z > 0} \end{cases}$
$\frac{d}{dz}ReLu = \begin{cases} 0, &\text{z < 0} \\ 1, & \text{z > 0} \end{cases}$
ReLu
$max(0.01\times z,z) = \begin{cases} 0.01\times z, & \text{z < 0} \\ z, & \text{z > 0} \end{cases}$
$\frac{d}{dz}ReLu = \begin{cases} 0.01, &\text{z < 0} \\ 1, & \text{z > 0} \end{cases}$

神经网络的梯度下降

假设网络有如下参数：
$w^{[1]}, b^{[1]},w^{[2]}, b^{[2]}$
有输入值如下所示：（分别对应输入层、隐藏层、输出层）
$n_x=n^{[0]},n^{[1]},n^{[2]}=1$
有成本函数如下：
$J(w^{[1]}, b^{[1]}, w^{[2]},b^{[2]}) = \frac{1}{m}\sum_{i=1}^{n}L(\hat y, y)$
重复以下梯度下降过程：
1. 计算损失函数：（预测值-真实值）
2. 计算参数的偏导： $dw^{[1]}=\frac{dJ}{dw^{[1]}}, db^{[1]}=\frac{dJ}{db^{[1]}}$
3. 更新参数： $w^{[1]}:=w^{[1]}-\alpha dw^{[1]},b^{[1]}:=b^{[1]}-\alpha db^{[1]}$ …

前向传播

$z^{[1]} = w^{[1]}x+b^{[1]}$
$A^{[1]} = g^{[1]}(z^{[1]})$
$z^{[2]} = w^{[2]}A^{[1]}+b^{[2]}$
$A^{[2]} = g^{[2]}(z^{[2]}) = \sigma(z^{[2]})$

在前向传播后并不是立刻进行反向传播的，要先计算损失函数的损失值，之后通过损失函数进行反向传播：
$-y\log a-(1-y)log(1-a)$
其中 $Y =$ 整个数据集的所有真实值

反向传播

反向传播即根据计算图，求出a,z,w,b的偏导
计算 $a$ 的偏导：
$\frac{d}{da}L(a,y)=-\frac{y}{a}+\frac{1-y}{1-a}$
计算 $z$ 的偏导：
$\frac{d}{dz}L(a,y)=\frac{dL(a,y)}{da}\frac{da}{dz}=da\times\sigma(z)'=da\times a\times(1-a)$
$(-\frac{y}{a}+\frac{1-y}{1-a})\times a\times(1-a)$
$-y\times(1-a)+a\times(1-y)=ay-y+a-ay$
$d z = a - y$
计算 $d w$ 的偏导：
$\frac{dL(a,y)}{dw}=\frac{dL(a,y)}{dz}\times\frac{dz}{dw}=(a-y)\times x$
计算 $d b$ 的偏导：
$\frac{dL(a,y)}{db}=\frac{dL(a,y)}{dz}\times\frac{dz}{db}=(a-y)\times 1$
以上计算图是只有一层的情况，现在多增加一层：
计算 $da^{[2]}$ :
$da^{[2]}=\frac{dL(a^{[2]}, y)}{da^{[2]}} = -\frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}}$
计算 $dz^{[2]}$ :
$dz^{[2]}=\frac{dL(a^{[2]},y)}{da^{[2]}}\times\frac{da^{[2]}}{dz^{[2]}}=da^{[2]}\times\sigma(z^{[2]})'$
计算 $dw^{[2]}$ :
$dw^{[2]}=\frac{dJ(a^{[2]},y)}{dz^{[2]}}\times\frac{dz^{[2]}}{dw^{[2]}}=dz^{[2]}\times x^{[2]}=dz^{[2]}\times a^{[1]}$
计算 $db^{[2]}$ :
$db^{[2]}=\frac{dJ(a^{[2]},y)}{dz^{[2]}}\times\frac{dz^{[2]}}{db^{[2]}}=dz^{[2]}$
计算 $da^{[1]}$ :
$da^{[1]}=\frac{dJ(a^{[2]},y)}{dz^{[2]}}\times\frac{dz^{[2]}}{da^{[1]}}=dz^{[2]}\times\frac{d(w^{[2]}\times a^{[1]}+b^{[2]})}{da^{[1]}} = dz^{[2]}\times w^{[2]}$
计算 $dz^{[1]}$ :
（ $dz^{[2]}$ 和 $dz^{[1]}$ 都是由损失函数 $L(a^{[2]},y)$ 进行推导的）
$dz^{[1]}=\frac{dL(a^{[2]},y)}{dz^{[1]}}=\frac{dL(a^{[2]},y)}{dz^{[2]}}\frac{dz^{[2]}}{da^{[1]}}\frac{da^{[1]}}{dz^{[1]}}=dz^{[2]}\times w^{[2]}\times\sigma(z^{[1]})'$
计算 $dw^{[1]}$ :
$dw^{[1]}=\frac{da^{[1]}}{dz^{[1]}}\times\frac{dz^{[1]}}{dw^{[1]}}=dz^{[1]}\times x$
计算 $db^{[1]}$ :
$db^{[1]}=\frac{da^{[1]}}{dz^{[1]}}\times\frac{dz^{[1]}}{db^{[1]}}=dz^{[1]}\times 1 = dz^{[1]}$

反向传播的向量化

将多个 $dz^{[2]}$ 、 $a^{[2]}$ 以及真实值 $y$ 叠加在一起:
$dZ^{[2]}=\begin{matrix}( z^{[1]}&...&z^{[n]})\end{matrix}$
$dA^{[2]}=\begin{matrix}( a^{[1]}&...&a^{[n]})\end{matrix}$
$Y=\begin{matrix}( y^{[1]}&...&y^{[n]})\end{matrix}$
于是有了向量化的 $dz^{[2]}$ :
$dZ^{[2]} = A^{[2]}-Y$
向量化 $d w$ :
$dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]}$
因为采用的是批次梯度下降（把整个训练集全都遍历过一次后才更新一次 $W$ ），所以每次更新使用的 $dW^{[2]}$ 采取所有训练样本的平均值
向量化 $db^{[2]}$
$dB^{[2]}=\frac{1}{m}\sum_{i=1}^{m}b^{[2]}_i=\frac{1}{m}\sum_{i=1}^{m}Z^{[2]}_i$
向量化 $dZ^{[1]}$
$dZ^{[1]}=W^{[2]}\times dZ^{[2]}\times \sigma(Z^{[1]})'$
向量化 $dw^{[1]}$ 和 $db^{[1]}$
$dW^{[1]}=\frac{1}{m}dZ^{[1]}X$
$db^{[1]}=\frac{1}{m}\sum_{i=1}^{m}dZ^{[1]}_i$