深度学习中交叉熵函数的导数:(极简)

NonePYH

已于 2024-03-08 17:29:08 修改

阅读量1.2k

点赞数 24

文章标签：深度学习人工智能神经网络 python

于 2024-03-08 17:25:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_76774649/article/details/136567207

版权

文章目录

前言
- 一.交叉熵函数的导数
- 二.Z,y为有n条数据的矩阵

前言

另一个博主有更详细的推导https://blog.csdn.net/chaipp0607/article/details/101946040

一.交叉熵函数的导数

softmax:令一条数据最后的输出为[z1,z2,z3,z4,…,z10],这里令输出层的神经元数量为10
$pi=\frac{e^{z_i} }{\sum_{j=1}^{10} e^{z_j}}$
cross_entropy:
$L=-\sum_{i=1}^{10} y_i \times log(pi)$
链式法则:
$\frac{\partial L}{\partial z_i}=\sum_{j=1}^{10}\frac{\partial L}{\partial p_j}\frac{\partial p_j}{\partial z_i}$
逐个击破
- $\frac{\partial L}{\partial p_j}=-y_j\times\frac{1}{p_j}$
- $\frac{\partial p_j}{\partial z_i}$ 有两种情况,这里直接跳过中间步骤(链式求导)
  - 1.i!=j
    $\frac{\partial p_j}{\partial z_i}=-p_i\times p_j$
    $\frac{\partial L}{\partial p_j}\frac{\partial p_j}{\partial z_i}=p_i\times y_j$
  - i==j
    $\frac{\partial p_j}{\partial z_i}=p_i\times (1-p_i)$
    $\frac{\partial L}{\partial p_j}\frac{\partial p_j}{\partial z_i}=(p_i-1)\times y_i$

$\frac{\partial L}{\partial z_i}=\sum_{j=1}^{10}\frac{\partial L}{\partial p_j}\frac{\partial p_j}{\partial z_i}=\sum_{j\neq i}\frac{\partial L}{\partial p_j}\frac{\partial p_j}{\partial z_i}+(p_i-1)\times y_i=\\ \sum_{j\neq i}p_i\times y_j+(p_i-1)\times y_i$
$\sum_{j=1}^{10}y_i=1,所以\frac{\partial L}{\partial z_i}=p_i-y_i!$

二.Z,y为有n条数据的矩阵

$\begin{bmatrix} z_{10},z_{11},...,z_{19}\\ ...\\ z_{n0},z_{n1},...,z_{n9}\\ \end{bmatrix}$
$\begin{bmatrix} y_{10},y_{11},...,y_{19}\\ ...\\ y_{n0},y_{n1},...,y_{n9}\\ \end{bmatrix}$
$\frac{\partial L}{\partial z}=softmax(z)-y //这里用到numpy的广播机制\\$
$\frac{\partial L}{\partial z}=\begin{bmatrix} softmax(z_{10}-y_1),softmax(z_{11}-y_1),...,softmax(z_{19}-y_1)\\ ...\\ softmax(z_{n0}-y_n),softmax(z_{n1}-y_n),...,softmax(z_{n9}-y_n)\\ \end{bmatrix}$

关注

24
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
深度学习中交叉熵函数的导数:(极简)

另一个博主有更详细的推导。
复制链接

扫一扫

博客等级

码龄1年

5
原创

108
点赞

82
收藏

88
粉丝

关注

私信

热门文章

最新评论

数据库引论笔记(二):数据库设计和E-R模型
CSDN-Ada助手: 恭喜用户写了第5篇博客！数据库设计和E-R模型是一个非常重要且复杂的话题，你的总结和分享让读者受益匪浅。接下来，建议你可以结合实际案例或者应用场景，深入探讨数据库设计中的一些挑战和解决方案，或者可以考虑介绍一些常用的数据库设计工具和技巧。期待你的下一篇作品！继续加油！
Flask学习笔记(一):基本框架和HTTP处理
CSDN-Ada助手: 恭喜你在Flask学习笔记系列中发布了第四篇博客！内容涵盖了基本框架和HTTP处理，让读者能够更深入地了解Flask的使用方法。接下来，建议你可以继续深入探讨Flask的高级功能，比如数据库操作、用户认证等方面的内容，这样可以让读者更全面地掌握Flask的应用。希望你能够继续保持创作的热情，不断进步！期待你的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
深度学习中交叉熵函数的导数:(极简)
CSDN-Ada助手: 恭喜作者能够持续创作，这篇关于深度学习中交叉熵函数导数的博客内容很有深度，让我受益匪浅。不过，希望作者在下一篇博客中能够更加详细地介绍交叉熵函数在深度学习中的应用场景，这样可以更好地帮助读者理解和应用这一知识点。期待作者的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
数据库引论笔记(一):关系型数据库基本术语
CSDN-Ada助手: 很高兴看到你写了关于数据库引论的第二篇博客！学习数据库确实需要理论和实践相结合，你的建议很中肯。除了MySQL，你还可以尝试学习其他数据库管理系统，比如Oracle、SQL Server等，这样可以帮助你更全面地了解不同的数据库技术和应用场景。此外，了解数据库设计原则和范式规范也是非常重要的，这可以帮助你设计出更加高效和优化的数据库结构。希望你能继续分享更多关于数据库的知识和经验，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
深度学习入门:mnist分类和boston房价预测的简单实现
CSDN-Ada助手: 恭喜您成功发布了第一篇博客！标题中提到的深度学习入门内容非常实用，对于初学者来说是一个很好的起点。接下来，建议您可以继续深挖这两个主题，例如探讨mnist分类和boston房价预测的更多细节，或者尝试其他数据集的实现，不断扩展自己的知识广度和深度。期待看到您更多精彩的分享！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。