正向传播和反向传播

1.什么是正向传播和反向传播,有何关系?

一、正向传播:沿着从输入层到输出层的顺序,依次计算并存储神经网络的中间变量。

二、反向传播:沿着从输出层到输入层的顺序,依次计算并存储神经网络的中间变量和参数的梯度。

三、关系:在训练深度学习模型时,正向传播和反向传播相互依赖。一方面,正向传播的计算可能依赖于模型参数的当前值,而这些模型参数是在反向传播的梯度。另一方面,反向传播的梯度计算可能依赖于各变量的当前值,而这些变量的当前值是通过正向传 播计算得到的。

计算后通过优化算法迭代的。

2.正向传播

输入层:假设输入是一个特征为x ∈ Rd的样本,且不考虑 偏差项,那么中间变量:

z = W(1)x,

隐藏层:把中间变量z ∈ Rh输入按元素运算的激活函数φ后,将得到向量⻓度为h的隐藏层变量,隐藏层变量h也是一个中间变量:

h = φ(z).

输出层:假设输出层参数只有权重W (2) ∈ Rq×h,可以得到向量⻓度为q的输出层变量:

o = W(2)h.

损失函数:假设损失函数为l,且样本标签为y,可以计算出单个数据样本的损失项

L = l(o, y).

根据L2 范数正则化的定义,给定超参数λ,正则化项即

最终,模型在给定的数据样 本上带正则化的损失为:J = L + s.

3.反向传播---重点在于链式求导

采取反向传播的原因:首先,深层网络由许多线性层和非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数(非线性来自于非线性激活函数)f(x),因此整个深度网络可以视为是一个复合的非线性多元函数。

我们最终的目的是希望这个非线性函数很好的完成输入到输出之间的映射,也就是找到让损失函数取得极小值。所以最终的问题就变成了一个寻找函数最小值的问题,在数学上,很自然的就会想到使用梯度下降来解决。

推导逻辑可以看看这个链接反向传播推导,容易理解。当然了也需要自己动手推导,下面是我推导的,刚开始理解着推,然后跟别人的对照一下,多推导两遍,时间久了真的会忘记🤣。

 

参考:

1.手动深度学习:https://zh.d2l.ai/chapter_prerequisite/install.html

2.https://www.jianshu.com/p/3f35e555d5ba

  • 5
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值