标量、向量、矩阵求导大全

最新推荐文章于 2024-07-21 22:22:19 发布

学渣渣渣渣渣

最新推荐文章于 2024-07-21 22:22:19 发布

阅读量1.8w

点赞数 1

分类专栏：方法文章标签：深度学习线性代数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42468475/article/details/108369795

版权

方法专栏收录该内容

31 篇文章 2 订阅

订阅专栏

1.正则化

原定的损失函数：
$-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} \tag{1}$
添加了L2正则化后的损失函数：
$J_{regularized} = \small \underbrace{-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} }_\text{cross-entropy cost} + \underbrace{\frac{1}{m} \frac{\lambda}{2} \sum\limits_l\sum\limits_k\sum\limits_j W_{k,j}^{[l]2} }_\text{L2 regularization cost} \tag{2}$

2.梯度计算公式

$\frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon} \tag{1}$
可以用这个公式验证梯度是否计算正确。

公式推导（非常有意思！）：https://blog.csdn.net/oBrightLamp/article/details/84333111
里面有关于神经网络梯度计算的推导：
在这里插入图片描述

3.矩阵求导

3.1对标量的计算

3.1.1 标量对标量

3.1.2 向量对标量

在这里插入图片描述

3.1.3 矩阵对标量

在这里插入图片描述

3.2 对向量的计算

3.2.1 标量对向量

在这里插入图片描述

3.2.2 向量对向量

在这里插入图片描述

3.2.3 矩阵对向量

在这里插入图片描述

3.3 对矩阵的计算

3.3.1 标量对矩阵

在这里插入图片描述

3.3.2 矩阵对矩阵

在这里插入图片描述

4 矩阵的导数与迹

4.1 矩阵的导数

在这里插入图片描述

4.2 矩阵的迹

对于一个n阶方阵A的迹被定义为方阵A的主对角线的元素之和，通常对方阵的求迹操作写成trA,于是我们有
在这里插入图片描述

4.3 性质

在这里插入图片描述

在这里插入图片描述

附：
1、向量对向量求导
在这里插入图片描述
2、标量对向量求导

3、向量对标量求导
在这里插入图片描述
4、可能用到的公式

参考：
https://www.cnblogs.com/crackpotisback/p/5545708.html

求导公式大全

学渣渣渣渣渣

关注

1
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学渣渣渣渣渣 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。