吴恩达神经网络与深度学习——浅层神经网络

最新推荐文章于 2023-10-25 17:10:50 发布

cherry1307

最新推荐文章于 2023-10-25 17:10:50 发布

阅读量2.4k

点赞数 5

分类专栏：神经网络与深度学习文章标签：神经网络反向传播

本文链接：https://blog.csdn.net/cherry1307/article/details/83388022

版权

神经网络与深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

神经网络概述

在这里插入图片描述

神经网络表示

在这里插入图片描述

计算神经网络的输出

在这里插入图片描述

m个样本的向量化

for loop

在这里插入图片描述

向量化

在这里插入图片描述

X：（nx,m）竖向指标代表神经网络的不同节点，横向指标代表不同的训练样本

向量化实现的解释

在这里插入图片描述

激活函数

sigmoid

在这里插入图片描述

除非用在二元分类的输出层，不然绝对不用，因为thah函数在任何场合都适用

tanh函数

在这里插入图片描述

sigmoid类函数的缺点是z特别大或特别小时斜率为0，会拖慢梯度下降的速度，使学习速率下降。

ReLu函数

在这里插入图片描述
默认使用
在实践中使用ReLu函数，神经网络的学习速率块，因为ReLu类函数没有sigmoid类函数在斜率接近于0时拖慢学习速率的特征。
ReLu由于NN有足够多的隐藏单元，使z>0.

Leaky ReLu函数

在这里插入图片描述

神经网络的一个特点是：在建立神经网络时，经常会有许多不同的选择比如隐藏单元数，激活函数，初始化权重等。

为什么需要非线性激活函数

事实证明：要让NN能够计算出有趣的函数，必须使用非线性激活函数

在这里插入图片描述

两个线性函数的组合本身就是线性函数，不能计算出有趣的函数；唯一可以用线性激活函数的地方是输出层，例如预测房价；除了这种情况，会在隐藏层用线性激活函数的，可能除了与压缩有关的一些特殊情况。

激活函数的导数

sigmoid

在这里插入图片描述
$g (z)= a = \frac{1}{1+exp(-z)}$

$g{'} (z)= a = \frac{e^{-z}}{(1+exp(-z))^2}=a*(1-a)$

tanh函数

在这里插入图片描述
$g (z)= tanh(z) = \frac{e^z-e^{-z}}{e^z+e^{-z}}$

$g{'} (z)= 1-(tanh(z))^2$

ReLu函数

在这里插入图片描述
$g (z) = max(0,z)$

$g{'} (z)= 1$ if z>0
$g{'} (z)= 0$ if z<0

Leaky ReLu函数

在这里插入图片描述
$g (z) = max(0.01z,z)$

$g{'} (z)= 1$ if z>0
$g{'} (z)= 0.01$ if z<0

神经网络的梯度下降

浅层神经网络

在这里插入图片描述

参数

w^[1](n^[1]*n^[0]),
b^[1](n^[1]*1),
w^[2](n^[2]*n^[1]),
b^[2]( n^[2] *1) 
n_x=n^[0],n^[1],n^[2]=1

代价函数

$J (w^{[1]},b^{[1]},w^{[2]},b^{[2]}) = \frac{1}{m}sum_{i=0}^n(y_{hat}-y)^2$

梯度下降

repeat{
			compute predict(yhat^[i],i=1,2,...,m)
			dw^[1] = dJ/dw^[1]     db^[1] = dJ/db^[1] ......
			w^[1] = w^[1]-alpha*dw^[1]
			b^[1] = w^[1]-alpha*db^[1]
			......
}

正向传播

在这里插入图片描述

反向传播

dZ^[2] = A^[2]-Y
dW^[2] = (1/m)dZ^[2](A^[1])^T
db^[2] = (1/m)np.sum(dZ^[2],axis=1(竖直相加)，keepdims = True(防止Python直接输出轶为1的数组))
aZ^[1] = (W^[1])^TdZ^[2]*(g^[1])'(Z^[1])##*逐元素相乘
dW^[1] = (1/m)dZ^[1](X)^T
db^[2] = (1/m)np.sum(dZ^[1],axis=1(竖直相加)，keepdims = True(防止Python直接输出轶为1的数组))

直观理解反向传播

Logistic回归

在这里插入图片描述
$L (a,y) = -yloga-(1-y)log(1-a)$

$a= \frac{1}{1+e^{-z}}$ $da= \frac{dL(a,y)}{da} =- \frac{y}{a}+\frac{1-y}{1-a}$ $dz= \frac{dL(a,y)}{dz} = \frac{dL(a,y)}{da} \frac{da}{dz} =a(1-a)(- \frac{y}{a}+\frac{1-y}{1-a})=a-y$ $dw=xdz$ $db=dz$

浅层神经网络

在这里插入图片描述

$dz^{[2]}= \frac{dL(a,y)}{dz^{[2]}} = \frac{dL(a,y)}{da^{[2]}} \frac{da^{[2]}}{dz^{[2]}} =a^{[2]}(1-a^{[2]})(- \frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}})=a^{[2]}-y$ $dW^{[2]}=dz^{[2]}a^{[1]T}$ $db^{[2]}=dz^{[2]}$ $dz^{[1]}= \frac{dL}{dz^{[1]}} = \frac{dL}{da^{[2]}} \frac{da^{[2]}}{dz^{[2]}} \frac{dz^{2]}}{da^{[1]}} \frac{da^{1]}}{dz^{[1]}} =g^{[1]'}(z^{[1]})*(W^{[2]T}dz^{[2]})$ $dW^{[1]}=dz^{[1]}X^T}$ $db^{[1]}=dz^{[1]}$

矩阵运算维度一定要匹配

在这里插入图片描述

m个样本的梯度下降

在这里插入图片描述

随机初始化权重

NN中，若权重初始化为0，则无效

在这里插入图片描述

w1 = np.random.randn((2,2))*0.01
b1 = np.zeros((2,1))
w2 = np.random.randn((1,2))*0.01
b2 = np.zeros(1,1))

cherry1307

关注

5
点赞
踩
44

收藏

觉得还不错? 一键收藏
0
评论
吴恩达神经网络与深度学习——浅层神经网络

吴恩达神经网络与深度学习——浅层神经网络神经网络概述神经网络表示计算神经网络的输出m个样本的向量化神经网络概述神经网络表示计算神经网络的输出m个样本的向量化X：（nx,m）竖向指标代表神经网络的不同节点，横向指标代表不同的训练样本...
复制链接

扫一扫