前言:
RESNET在处理神经网络梯度消失方面表现出了优越的性能,那么这个网络是如何处理梯度消失的?又是怎样进行反向传播的?下面将详细讲解一下:
要想解决这个问题要从最本质的训练流程出发:
一、正向、反向传播过程
正向传播过程:假设一个二分类全连接神经网络结构没有隐藏层,直接全连接然后分类,那么可以得到:
,,其中z1是全连接结果,w是权重,b是偏置,F1是分类结果,g()是非线性激活函数
我们对其进行反向传播不难得到梯度:
RESNET在处理神经网络梯度消失方面表现出了优越的性能,那么这个网络是如何处理梯度消失的?又是怎样进行反向传播的?下面将详细讲解一下:
要想解决这个问题要从最本质的训练流程出发:
正向传播过程:假设一个二分类全连接神经网络结构没有隐藏层,直接全连接然后分类,那么可以得到:
,,其中z1是全连接结果,w是权重,b是偏置,F1是分类结果,g()是非线性激活函数
我们对其进行反向传播不难得到梯度: