注:个人理解,如有错误欢迎指正!
难理解CNN卷积反向传播时,可以先理清简单神经网络如何前向推理和反向传播,再类推过去。虽然卷积计算梯度比较复杂,但两者更新权重的过程基本一致。
链式法则
常规方式
前层梯度包含后层梯度的乘积,当某一层过大或过小时会导致梯度爆炸或梯度消失问题
残差结构
如图所示,残差连接可以让这一层反向传播的梯度为,避免因这一层梯度过小而导致后续传播过程中梯度消失问题
concat
个人理解:concat方式似乎可以传播更加丰富的梯度信息,例如
注:个人理解,如有错误欢迎指正!
难理解CNN卷积反向传播时,可以先理清简单神经网络如何前向推理和反向传播,再类推过去。虽然卷积计算梯度比较复杂,但两者更新权重的过程基本一致。
前层梯度包含后层梯度的乘积,当某一层过大或过小时会导致梯度爆炸或梯度消失问题
如图所示,残差连接可以让这一层反向传播的梯度为,避免因这一层梯度过小而导致后续传播过程中梯度消失问题
个人理解:concat方式似乎可以传播更加丰富的梯度信息,例如