神经网络与深度学习笔记(四)为什么用交叉熵代替二次代价函数

1、为什么不用 二次方代价函数

我们用的 loss 方程是

这里写图片描述

a 是 神经元的输出,其中 a = σ(z), z = wx + b

使用链式法则求权重和偏置的偏导数有:

这里写图片描述

可知,偏导数受激活函数的导数影响

再由 sigmoid 函数可知,

这里写图片描述

sigmoid 的导数在输出接近 0 和 1 的时候 是非常小的,这会导致一些实例在刚开始训练时学习得非常慢:

这里写图片描述

2、为什么要用 交叉熵

先看公式:

这里写图片描述

求权重和偏置的偏导数:

这里写图片描述

这里写图片描述

根据 σ′(z) = σ(z)(1 − σ(z)),知

这里写图片描述

这里写图片描述

由以上公式可知,权重学习的速度受到 σ(z) − y 影响,更大的误差,就有更快的学习速度,还避免了二次代价函数方程中因 σ′(z) 导致的学习缓慢

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值