softmax-交叉熵损失函数的求导计算推导

最新推荐文章于 2022-11-05 23:50:45 发布

ai_pq

最新推荐文章于 2022-11-05 23:50:45 发布

阅读量1k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/pq4362050/article/details/104440260

版权

本文详细推导了在多分类任务中，如何通过softmax和交叉熵损失函数来更新权重w的过程。从最后一层的输出开始，通过softmax函数转换，接着计算交叉熵损失，并利用链式法则求得损失函数对权重w的导数，最终得到基于梯度下降的权重更新公式。

摘要由CSDN通过智能技术生成

目前大部分多分类任务对最后一层的输出做softmax，然后使用交叉熵作为损失函数，再对loss求导反向传播来更新w，经过多轮训练得到训练好的w，这就是模型。

我相信许多刚入门的machine learninger只是知道该这么用，但是不明白为什么这样就可以更新w了，下面推导最后一层的导数

最后一层的第i个输出是

$Z_{i} = W_{i}^{T}X+ b$

其对应的softmax处理是

$a_{i} =$

输入公式太麻烦了还是手写的吧

这里的aj 和 ai 的分母是一样的，只是我多写出来一个zj ，这样方便理解，后面会用到。

softmax之后是求交叉熵，假设ai对应的真实值(也就是输入的label)是yi ：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ai_pq

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

softmax函数及交叉熵函数求导

qq_38032064的博客

05-27

626

softmax函数这里以神经网络多分类问题为例，假设输出层有nnn个神经元，输出为z1,z2,...,znz_1,z_2,...,z_nz1,z2,...,zn，经过softmax函数后的输出为a1,a2,...,ana_1,a_2,...,a_na1,a2,...,an，aia_iai的计算公式为： ai=ezi∑j=1nezja_i=\frac{e^{z_i}}{\sum_{j...

交叉熵代价函数

热门推荐

wepon的专栏

03-13

15万+

本文是《Neural networks and deep learning》概览中第三章的一部分，讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+

参与评论您还未登录，请先登录后发表或查看评论

交叉熵损失函数求导

weixin_43507046的博客

04-20

967

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用M...

交叉熵（cross-entropy）损失函数求导过程推导

河山入梦来的博客

07-01

1万+

交叉熵（cross-entropy）损失函数求导过程推导1. 什么是交叉熵？1.1 熵1.2 KL散度1.3 交叉熵2. 关于softmax函数3. 推导过程3.1 关于softmax的求导3.2 关于cross-entropy的求导功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右Smarty...

交叉熵代价函数(损失函数)及其求导推导 (Logistic Regression)

jasonzzj的博客

07-25

11万+

前言 交叉熵损失函数 交叉熵损失函数的求导前言说明：本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。首先，我们二话不说，先放出交叉熵的公式： J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(...

Softmax回归交叉熵损失函数求导

weixin_42717395的博客

12-04

312

softmax函数的表达式：ai=ezi∑kezka_{i}=\frac{e^{z_{i}}}{\sum_{k} e^{z_{k}}}ai=∑kezkezi 交叉熵 损失函数：C=−∑iyiln⁡aiC=-\sum_{i} y_{i} \ln a_{i}C=−∑iyilnai 根据复合函数求导法则：∂C∂zi=∑j(∂Cj∂aj∂aj∂zi)\frac{\partial C}{\p...

python实现 交叉熵损失函数_PyTorch的SoftMax交叉熵损失和梯度用法

weixin_29305337的博客

01-17

1404

在PyTorch中可以方便的验证SoftMax交叉熵损失和对输入梯度的计算关于softmax_cross_entropy求导的过程,可以参考HERE示例：# -*- coding: utf-8 -*-import torchimport torch.autograd as autogradfrom torch.autograd import Variableimport torch.nn.func...

机器学习4. 交叉熵损失函数与softmax回归的反向传播推导

xd_ljq的博客

04-15

743

在多分类问题中，一般选取softmax作为分类器，交叉熵作为损失函数。他们的形式都很简单，但是在BP的时候还是有些复杂，现在总结如下： 交叉熵损失函数 (1)C(a,y)=−∑iyilnaiC(a,y)=-\sum_i{y_i ln a_i} \tag{1}C(a,y)=−i∑yilnai(1) softmax逻辑回归第iii个输出值aia_iai为： (2)ai=ezi∑kezka_i...

交叉熵损失函数总结: 定义、应用及求导

生命在于折腾！

05-28

2418

交叉熵损失函数总结: 定义、应用及求导先说熵(entropie)，熵最早出现在热力学中，用于度量一个热力学系统的无序程度。后来熵被引入到信息论里面，表示对不确定性的测量。为了弄清楚交叉熵，首先需要弄清楚交叉熵相关的几个概念。 1.1 信息量信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。也就是说不确定性越高，信息量越大。信息量的数学表达式如下，其中 ppp 为随机变量 XXX 的概率分布，即 p(x)p(x)p(x) 为随机变量 XXX 在 X=xX=xX=x 处的概率密度函数值。 I

【笔记】交叉熵softmax求导简单解释

qq_43854567的博客

02-12

1879

在分类任务总利用交叉熵作为损失函数后对输出层的输入O求导后为预测值为y^-y，why? 由下图可知交叉熵和softmax的公式如下图所示，如何求出的下入右框中的求导式子。【为什么上图中的交叉熵的式子与我们平常所见的不同】由上图，一般交叉熵的标准形式为上图中橙色方框中的公式，在二元逻辑回归中，我们见到的损失函数为绿色框中的形式，而在多元分类任务中写成了蓝色框中的情况，与负对数似然类似。其实我们可以将绿色和蓝色框中的公式当成对橙色框中公式的两种解读。【黄框】标准的交叉熵公式【绿框】二分类情况下.

交叉熵损失导数推理

zhaoguanhua的博客

04-14

6218

在深度学习网络训练中，交叉熵损失是一种经常使用的损失函数，这篇文章里我们来推导一下交叉熵损失关于网络输出z的导数，由于二分类是多分类的特殊情况，我们直接介绍多分类的推导过程。一、Softmax交叉熵损失求导基于softmax的多分类交叉熵公式为 LSCE=−∑j=1Cyjlog⁡(pj)L_{S C E}=-\sum_{j=1}^{C} y_{j} \log \left(p_{j}\right)LSCE=−j=1∑Cyjlog(pj) 其中CCC表示类别总数，包含背景类别，pjp_jpj通过S

cs231n_softmax损失函数对权重W求导

卡尔曼和舒拉

02-28

1527

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言 L=1N∑iLi+λR(W)R(W)=∑k∑jWk,l2f=XWL=\frac{1}{N}\sum_{i}L_{i}+\lambda R(W)\\R(W)=\sum_{k}\sum_{j}W_{k,l}^{2} \\f=XWL=N1i∑Li+λR(W)R(W)=k∑j∑Wk,l2f=XW Li=−fyi+log(∑jefj)∂Li∂W=−∂fyi

sigmoid、softmax函数/交叉熵损失函数/二分类、多分类详细推导过程

PuJiang-的博客

08-23

3004

交叉熵损失函数、MSE、二分类、多分类

交叉熵损失函数及其求导过程推导

weixin_43461341的博客

03-27

717

转载地址：https://blog.csdn.net/jasonzzj/article/details/52017438?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task ex/(1+ex)=1/(1+e^-x)

softmax交叉熵损失函数求导

qq_33871546的博客

06-15

341

softmax 函数 softmax(柔性最大值)函数，一般在神经网络中， softmax可以作为分类任务的输出层。其实可以认为softmax输出的是几个类别选择的概率，比如我有一个分类任务，要分为三个类，softmax函数可以根据它们相对的大小，输出三个类别选取的概率，并且概率和为1。 softmax函数的公式是这种形式：则对于损失函数计算成本的梯度 ...

交叉熵求导(预测函数为softmax)

qq_35985044的博客

10-29

261

softmax中交叉熵的求导法则

weixin_45718987的博客

11-05

201

交叉熵求导

简单易懂的softmax交叉熵损失函数求导

zjchenchujie的博客

07-03

311

转帖：https://blog.csdn.net/qian99/article/details/78046329

sotmax 交叉熵损失函数求导