目录
为什么要计算梯度?
直观的讲,我们的网络通过这样的方式进行学习计算,最终输出的结果y为网络根据标签学习来的,网络的第一次前向传播相当于自学,随意学习一种概率分布,但是我们想让预测的结果更加接近“答案”,那我们就需要计算预测与标签之间差距,即loss。然后我们通过降低loss的方式改变权重(更新梯度),缩小预测结果与真实值(标签)之间的差距。
1.简单的梯度计算
先看一个简单的:
以下图的反向传播为例:假设σ为sigmoid,C为代价函数。
下图(1)式为该网络的前向传播公式。
下一个结点的输入为上一个结点输出