softmax-交叉熵损失函数的求导计算推导

本文详细推导了在多分类任务中,如何通过softmax和交叉熵损失函数来更新权重w的过程。从最后一层的输出开始,通过softmax函数转换,接着计算交叉熵损失,并利用链式法则求得损失函数对权重w的导数,最终得到基于梯度下降的权重更新公式。
摘要由CSDN通过智能技术生成

目前大部分多分类任务对最后一层的输出做softmax,然后使用交叉熵作为损失函数,再对loss求导反向传播来更新w,经过多轮训练得到训练好的w,这就是模型。

我相信许多刚入门的machine learninger只是知道该这么用,但是不明白为什么这样就可以更新w了,下面推导最后一层的导数

最后一层的第i个输出是 

Z_{i} = W_{i}^{T}X+ b

其对应的softmax处理是

a_{i} =

输入公式太麻烦了  还是手写的吧

 这里的aj 和 ai 的分母是一样的 ,只是我多写出来一个zj , 这样方便理解,后面会用到。

softmax之后是求交叉熵,假设ai对应的真实值(也就是输入的label)是yi :

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值