梯度下降算法反向传播过程

最新推荐文章于 2024-09-06 10:38:06 发布

C小白爬坑日记

最新推荐文章于 2024-09-06 10:38:06 发布

阅读量268

点赞数 4

分类专栏：深度学习基础文章标签：算法深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/walkertc/article/details/138960842

版权

深度学习基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

0 背景

之前学习过d2l课程，在反向传播那块过的比较快，后面训练了很多的神经网络，但总是感觉有些困顿迷茫，所以重新过了一遍基础知识

1 Back propagation

为什么训练需要比推理占用更多的显存呢？这是因为反向传播需要用到前向传播过程中很多的值，所以在前向传播的时候，需要将一些中间激活函数的值给存储起来，主要用到的有下面三种：

输入值（input）
权重值（weights）
激活函数的输出，这里以sigmoid函数为例，sigmoid函数求导之后的值为f(x)(1-f(x))所以需要用到f(x)之前的值

2 Lec 7 结合李宏毅的课程阐述

公式 $\frac{\partial{L(\theta)}}{\partial{w}} = \sum{\frac{\partial{C^n(\theta)}}{\partial{w}}}$ 用于求解最后的损失函数对于某个参数 $w$ 的梯度，其中 $C^n(\theta)$ 为所有样本的真实值和预测值之间的差距
在这里插入图片描述
当遇到第一个激活函数的时候，可以按照链式求导法则对其进行拆分为激活函数左边和右边两个部分，左边的部分为 $\frac{\partial{Z}}{\partial{w}}$ ,这部分结果就是激活函数左侧的输入，而 $\frac{\partial{C}}{\partial{z}}$ 则是神经元右侧的结果
在这里插入图片描述
逆向的时候是直接用 $\partial{z}$ 乘以后面的结果，所以这里的 $\partial{z}$ 是一个常数值

$\partial'{z}$ 需要用到结果a是因为假设激活函数为sigmoid函数，那么它的导数形式为f(x)(1-f(x)，所以在前向计算过程当中得到的值要保存下来以供后向传播时候使用
在这里插入图片描述
上述过程可以堪称是建立一个反向的nerul network，反向的nerul network只有在正向完成计算之后才有机会算的出来

C小白爬坑日记

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
梯度下降算法反向传播过程

之前学习过d2l课程，在反向传播那块过的比较快，后面训练了很多的神经网络，但总是感觉有些困顿迷茫，所以重新过了一遍基础知识。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。