cross entropy与softmax求导(1) 思路

最新推荐文章于 2023-03-02 15:57:21 发布

dbcrk88408

最新推荐文章于 2023-03-02 15:57:21 发布

阅读量159

点赞数

原文链接：http://www.cnblogs.com/yummy-roast-duck/p/9638879.html

版权

softmax是向量函数，输入向量并输出另一个向量，

“对softmax求导”，到底是在对什么求导？

对向量函数求导得到的是一个矩阵： (不要在意字母的含义)

因为有多个输出，要明确的是：计算哪个输出元素的导数？

以及，由于softmax具有多个输入，所以也要明确：计算它(这个输出元素)关于哪个输入元素的偏导数？

求导在这里更具体的表述是： 求第 i 个输出关于第 j 个输入的偏导数，

这样：，

求导是为了配合cross entropy来进行backpropagation，

假设最后cross entropy中进行计算的one-hot向量的第 i 位为1，其余的为0，

我们只要求出 第 i 个输出关于每一个输入元素的偏导数就可以了，

因为其他的输出都乘以0了，对loss没有贡献,

对于所有的输入元素，用 j 来表示输入元素的序号，这里又分两种情况，

(1) j 等于 i 时，即第 i 个输入变量 ;

(2) j 不等于 i 时；

这两种情况下，偏导数的公式是不同的

j 等于 i 时，softmax分子分母都含有第 j 个输入元素,

j 不等于 i 时，softmax只有分母含有第 j 个输入元素,

转载并自己发挥:https://blog.csdn.net/cassiePython/article/details/80089760

转载于:https://www.cnblogs.com/yummy-roast-duck/p/9638879.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dbcrk88408

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

cross entropy与softmax求导(2) 推导

09-13

138

损失函数为cross entropy, y是预测值，one-hot向量，激活函数为softmax, 求函数关于输入向量theta的导数，结果很简单，可以直接记住：因为是输入向量，多输入元素求偏导的过程中，需要考虑两种情况然后log开导，自然底数和log抵消调，然后就得到两种情况的两种导数公式然后合并一下，就得到上面的向量公...

softmax激活+crossEntropy损失求导公式推导

ZHE

08-19

2720

文章目录

参与评论您还未登录，请先登录后发表或查看评论

【深度学习】softmax和交叉熵的配合求导

Dong_ZH的博客

03-02

8967

在分类问题中，尤其是在神经网络中，交叉熵函数非常常见。因为经常涉及到分类问题，需要计算各类别的概率，所以交叉熵损失函数又都是与sigmoid函数或者softmax函数成对出现。

Cross Entropy Loss with Softmax的求导

Jiajun的博客

05-03

7077

ICO的全称是Initial Coin Offering（也有称作Initial Crypto-Token Offering），中文是首次代币发行。很多人错过AI，错过比特币，错过以太坊，生怕错过ICO，看到ICO犹如饿虎扑食般。在保守投资者的强烈抵触下，被批成ICO就是在炒空气。曾请教过一位在摩根工作的朋友，他说他们圈子对ICO是看空的；股神巴菲特先生怒斥比特币毫无价值。但笔者的观点是，并ICO并

softmax做激活函数，crossentropy做损失函数时softmax的求导问题

HLW0522的博客

08-27

1641

首先crossentropy的定义为 softmax的直观定义（摘于李宏毅教授主页http://speech.ee.ntu.edu.tw/~tlkagk/courses.html） softmax它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类！以手写数字图像识别为例。softmax输出的是一个十维的vector，比如待识别的数字是2，则我们希望的是在...

关于交叉熵（Cross Entropy）与Softmax

qqq_aaa_zzz1的博客

08-20

4834

目录写在前面 KL散度交叉熵 Softmax 交叉熵与Softmax的关系交叉熵损失 Softmax的求导堆叠+向量化其他关于Softmax函数的问题赠品写在前面 Softmax、交叉熵、交叉熵损失是机器学习与神经网络模型的重要组成部分，一般来说，Softmax一般用于criterion(标准)，交叉熵与交叉熵损失用来衡量模型预测与实际结果间的差别并产生用于反向传播的梯度。...

手撕Softmax以及Cross Entropy Loss求导

weixin_43646592的博客

09-20

452

【机器学习】——为什么softmax搭配cross entropy是解决分类问题的通用方案？

努力学挖掘机的李某某的博客

04-18

1094

众所周知，softmax+cross entropy是在线性模型、神经网络等模型中解决分类问题的通用方案，但是为什么选择这种方案呢？它相对于其他方案有什么优势？笔者一直也困惑不解，最近浏览了一些资料，有一些小小心得，希望大家指正~ 损失函数：交叉熵Cross Entropy 我们可以从三个角度来理解cross entropy的物理意义从实例上直观理解我们首先来看Cross Entropy 的公...

卷积神经网络系列之softmax，softmax loss和cross entropy的讲解

AI之路

08-17

18万+

我们知道卷积神经网络（CNN）在图像领域的应用已经非常广泛了，一般一个CNN网络主要包含卷积层，池化层（pooling），全连接层，损失层等。虽然现在已经开源了很多深度学习框架（比如MxNet，Caffe等），训练一个模型变得非常简单，但是你对这些层具体是怎么实现的了解吗？你对softmax，softmax loss，cross entropy了解吗？相信很多人不一定清楚。虽然网上的资料很多，但是...

简单谈谈Cross Entropy Loss

热门推荐

时光杂货店

06-23

18万+

写在前面分类问题和回归问题是监督学习的两大种类。神经网络模型的效果及优化的目标是通过损失函数来定义的。回归问题解决的是对具体数值的预测。比如房价预测、销量预测等都是回归问题。这些问题需要预测的不是一个事先定义好的类别，而是一个任意实数。解决回顾问题的神经网络一般只有一个输出节点，这个节点的输出值就是预测值。对于回归问题，常用的损失函数是均方误差( MSE，mean squared ...

卷积神经网络系列之softmax loss对输入的求导推导

AI之路

03-20

2万+

我们知道卷积神经网络（CNN）在图像领域的应用已经非常广泛了，一般一个CNN网络主要包含卷积层，池化层（pooling），全连接层，损失层等。虽然现在已经开源了很多深度学习框架（比如MxNet，Caffe等），训练一个模型变得非常简单，但是你对损失函数求梯度是怎么求的真的了解吗？相信很多人不一定清楚。虽然网上的资料很多，但是质量参差不齐，常常看得眼花缭乱。为了让大家少走弯路，特地整理了下这些知识点...

loss函数涉及的softmax 、cross encropy和softmaxwithloss

wonengguwozai的博客

07-01

6737

Softmax与Cross-entropy的求导

日积月累，天道酬勤

06-15

1205

在多分类问题中，一般会把输出结果传入到softmax函数中，得到最终结果。并且用交叉熵作为损失函数。本来就来分析下以交叉熵为损失函数的情况下，softmax如何求导。

softmax with cross-entropy loss求导(转载＋细节整理)

微电子学与固体电子学-俞驰

06-05

3000

softmax 函数 softmax(柔性最大值)函数，一般在神经网络中， softmax可以作为分类任务的输出层。其实可以认为softmax输出的是几个类别选择的概率，比如我有一个分类任务，要分为三个类，softmax函数可以根据它们相对的大小，输出三个类别选取的概率，并且概率和为1。即总共有kkk类,必有: ∑k=1Cyi=1\sum_{k=1}^Cy_i=1k=1∑Cyi=1 为了方...

深度学习笔记(四)：Cross-entropy损失函数

风筝的专栏

05-17

2万+

改进的Cost函数Cross-entropy使神经网络学习更快神经网络是如何学习的神经网络学习过程(Cost的变化情况) 为什么神经网络会出现一开始学习很慢后来学习变快的情况呢介绍cross-entropy 损失函数（cost function）演示cross-entropy损失函数的学习情况总结: 改进的Cost函数Cross-entropy使神经网络学习更快...

交叉熵损失(Cross Entropy)求导

zhangxu

10-03

1万+

Cross Entropy是分类问题中非常常见的一种损失函数，我们在之前的文章提到过二值交叉熵的证明和交叉熵的作用，下面解释一下交叉熵损失的求导。

NX二次开发-属性操作（创建与编辑）

04-02

目前关于属性操作的创建于编辑主要有新旧两个版本，旧版本主要使用UF_ATTR_assign（）函数，新版本主要使用UF_ATTR_set_user_attribute（）函数。注意在使用新版本是需要初始化。

编书机械制图习题集（属性块图框）出版社.dwg

最新发布

04-02

编书机械制图习题集（属性块图框）出版社.dwg

毕业设计物联网实战项目基于 ESP8266 及 1.3 寸 TFT 实现的华为太空人时钟.zip

04-02

【项目资源】：物联网项目适用于从基础到高级的各种项目，特别是在性能要求较高的场景中，比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者，可以从简单的控制台程序开始练习；如果是进阶开发者，可以尝试涉及硬件或网络的项目。【项目质量】：所有源码都经过严格测试，可以直接运行。功能在确认正常工作后才上传。【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】：项目具有较高的学习借鉴价值，也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说，可以在这些基础代码上进行修改和扩展，实现其他功能。【沟通交流】：有任何使用上的问题，欢迎随时与博主沟通，博主会及时解答。鼓励下载和使用，并欢迎大家互相学习，共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等，一切后果由使用者承担。 2. 部分字体以及插图等来自网络，若是侵权请联系删除。

nn.CrossEntropyLoss

06-11

在 PyTorch 中，`nn.CrossEntropyLoss` 是一个常用的损失函数，通常用于多分类问题中。该函数将 softmax 函数和负对数似然损失函数结合在一起，可以直接计算神经网络的输出和真实标签之间的交叉熵损失。 `nn.CrossEntropyLoss` 的输入包括两个部分：神经网络的输出和真实标签。其中，神经网络的输出是一个形状为 `(batch_size, num_classes)` 的张量，其中 `batch_size` 表示批次大小，`num_classes` 表示类别数；真实标签是一个长度为 `batch_size` 的一维张量，其中每个元素的取值范围为 `[0, num_classes-1]`。使用 `nn.CrossEntropyLoss` 可以在训练过程中方便地计算损失值，并且该函数还可以自动进行反向传播求导。下面是一个简单的使用 `nn.CrossEntropyLoss` 的示例代码： ```python import torch import torch.nn as nn # 定义神经网络的输出和真实标签 outputs = torch.randn(10, 5) # batch_size=10, num_classes=5 labels = torch.tensor([2, 4, 1, 0, 3, 2, 2, 1, 4, 0]) # 定义损失函数 criterion = nn.CrossEntropyLoss() # 计算损失值 loss = criterion(outputs, labels) # 打印损失值 print(loss.item()) ``` 在上面的示例中，`outputs` 的形状为 `(10, 5)`，表示有 10 个样本，每个样本有 5 个类别的输出得分。`labels` 是一个长度为 10 的一维张量，表示 10 个样本的真实标签。定义损失函数时，我们直接使用 `nn.CrossEntropyLoss()`，不需要额外设置参数。使用 `loss.item()` 可以得到一个标量，表示该批次样本的平均交叉熵损失。