神经网络反向传播算法的推导

神经网络反向传播算法的推导


推导如下
这里写图片描述


其中考虑了代价函数 C = C 1 ( L 2 范 数 ) , C 2 ( 交 叉 熵 ) , C 3 ( 考 虑 权 重 L 1 范 数 的 代 价 ) C=C_1(L2范数),C_2(交叉熵),C_3(考虑权重L1范数的代价) C=C1(L2),C2(),C3(L1)的情形,事实上对任意代价函数算法实现原理都一致,只需要实现算法时候更改调用的代价函数的关于对应 a a a的导数即可。

其中激活函数没有具体带入,可以是 σ ( x ) = s i g m o i d ( x )   o r   t a n h ( x ) 或 者 再 进 行 一 次 s o f t m a x ( z ) \sigma(x)=sigmoid(x)\ or\ tanh(x)或者再进行一次softmax(z) σ(x)=sigmoid(x) or tanh(x)softmax(z),事实上对任意激活函数算法实现原理一致,只需要实现算法时候更改调用的激活函数及其导数导数即可。


另外关于交叉熵,再最下面有一个小的说明。

交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布(注意q为 s i g m o i d sigmoid sigmoid的输出永远不会为0或者1,所以交叉熵一直有意义),交叉熵损失函数可以衡量p与q的相似性。熵的本质就是香农信息量的期望,至于香农熵,对此定义比较清楚了,而且可以解函数方程解出唯一定义了,根据这个定义可以推出q分布的信息量的数学期望。

交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值