误差的计算
以该网络为例
左边为输入层,中间为隐藏层,右边为输出层
y1和y2的输出:
softmax:所有输出节点概率和为1
交叉熵损失:
误差的反向传播
权重的更新
我们不可能将数据集一次塞入,因此我们是要分批次进行训练的 ,则损失梯度指向当前批次最优解方向
引入优化器,使网络更快的收敛
引入了动量,考虑到了上一次的梯度方向,效果如左下图所示
以该网络为例
左边为输入层,中间为隐藏层,右边为输出层
y1和y2的输出:
softmax:所有输出节点概率和为1
交叉熵损失:
我们不可能将数据集一次塞入,因此我们是要分批次进行训练的 ,则损失梯度指向当前批次最优解方向
引入优化器,使网络更快的收敛
引入了动量,考虑到了上一次的梯度方向,效果如左下图所示