Course 1 神经网络和深度学习 Week4 搭建多层神经网络识别猫图

最新推荐文章于 2022-05-13 12:19:14 发布

Reanon

最新推荐文章于 2022-05-13 12:19:14 发布

阅读量290

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/Reanon/article/details/99845422

版权

本文详细介绍了如何搭建一个多层神经网络，用于识别猫的图像。内容涵盖神经网络的基本元素符号约定，初始化参数，前向传播、反向传播的原理和实现，以及模型的训练和结果分析。通过L层神经网络，结合ReLU和Sigmoid激活函数，最终实现图像分类。

摘要由CSDN通过智能技术生成

基本元素符号约定

上标 $[l]$ 代表神经网络的层数 $l^{th}$ ，比如 $a^{[L]}$ 是 $[L]$ 层的激活， $W^{[L]}$ 是 $[L]$ 层的权重， $b^{[L]}$ 是 $[L]$ 层的偏置。
上标 $(i)$ 表示第 $i^{th}$ 个样本，比如 $x^{(i)}$ 是第 $i^{th}$ 个训练样本。
下标 $i$ 表示 $[l]$ 层的第 $i^{th}$ 项, 比如 $a^{[l]}_i$ 表示第 $l^{th}$ 层的第 $i^{th}$ 个激活项

一、原理

多层神经网络搭建的流程图
在这里插入图片描述

1.1 为L-层神经网络初始化参数

	W的维度	b的维度	激活值的计算	激活值的维度
第1层	$n^{[1]},12288)$	$n^{[1]},1)$	$Z^{[1]} = W^{[1]} X + b^{[1]}$	$n^{[1]},209)$
第2层	$n^{[2]}, n^{[1]})$	$n^{[2]},1)$	$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$	$n^{[2]}, 209)$
$\vdots$	$\vdots$	$\vdots$	$\vdots$	$\vdots$
第L-1层	$n^{[L-1]}, n^{[L-2]})$	$n^{[L-1]}, 1)$	$Z^{[L-1]} = W^{[L-1]} A^{[L-2]} + b^{[L-1]}$	$n^{[L-1]}, 209)$
第L层	$n^{[L]}, n^{[L-1]})$	$n^{[L]}, 1)$	$Z^{[L]} = W^{[L]} A^{[L-1]} + b^{[L]}$	$n^{[L]}, 209)$

$W^{[l]}$ ：parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[i - 1]) / np.sqrt(layer_dims[l - 1])
$b^{[l]}$ ：parameters['b' + str(l] = np.zeros(shape=(layer_dims[l], 1))

1.2 前向传播

1.2.1 前向传播的线性部分 $Z^{[l]}=WX + b$

$\begin{bmatrix} j & k & l\\ m & n & o \\ p & q & r \end{bmatrix}\;\;\; X = \begin{bmatrix} a & b & c\\ d & e & f \\ g & h & i \end{bmatrix} \;\;\; b =\begin{bmatrix} s \\ t \\ u \end{bmatrix}$

$\begin{bmatrix} (ja + kd + lg) + s & (jb + ke + lh) + s & (jc + kf + li)+ s\\ (ma + nd + og) + t & (mb + ne + oh) + t & (mc + nf + oi) + t\\ (pa + qd + rg) + u & (pb + qe + rh) + u & (pc + qf + ri)+ u \end{bmatrix}$
$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$ 其中 $A^{[0]} = X$

1.2.2 计算前向传播的线激活函数部分

激活函数公式

Sigmoid: $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$
Relu:

最低0.47元/天解锁文章

Reanon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Course 1 神经网络和深度学习 Week4 搭建多层神经网络识别猫图

基本元素符号约定上标 [l][l][l]代表神经网络的层数 lthl^{th}lth ，比如a[L]a^{[L]}a[L] 是 [L][L][L]层的激活， W[L]W^{[L]}W[L]是[L][L][L]层的权重，b[L]b^{[L]}b[L]是[L][L][L]层的偏置。上标(i)(i)(i) 表示第ithi^{th}ith个样本，比如 x(i)x^{(i)}x(i)是第ithi^{t...
复制链接

扫一扫