机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则

最新推荐文章于 2024-08-09 22:24:25 发布

未来不再遥远

最新推荐文章于 2024-08-09 22:24:25 发布

阅读量617

点赞数 1

分类专栏：机器学习文章标签：人工智能机器学习深度学习 python 算法

本文链接：https://blog.csdn.net/jxessoft/article/details/107955719

版权

本文介绍了矩阵向量求导的链式法则，包括向量对向量、标量对多个向量及标量对多个矩阵的求导规则。通过这些法则，可以简化机器学习和深度学习中的求导过程，特别是在处理复杂依赖关系时。文章还给出了常用机器学习问题的求导例子，如最小二乘法的梯度求解。

摘要由CSDN通过智能技术生成

在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中，我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候，求导的自变量和因变量直接有复杂的多层链式求导的关系，此时微分法使用起来也有些麻烦。需要一些简洁的方法。

本文我们讨论矩阵向量求导链式法则，使用该法则很多时候可以帮我们快速求出导数结果。

本文的标量对向量的求导，标量对矩阵的求导使用分母布局，向量对向量的求导使用分子布局。如果遇到其他资料求导结果不同，请先确认布局是否一样。

1. 向量对向量求导的链式法则

首先我们来看看向量对向量求导的链式法则。假设多个向量存在依赖关系，比如三个向量 $\mathbf{x} \to \mathbf{y} \to \mathbf{z}$ 存在依赖关系，则我们有下面的链式求导法则：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \frac{\partial \mathbf{z}}{\partial \mathbf{y}}\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
该法则也可以推广到更多的向量依赖关系。但是要注意的是要求所有有依赖关系的变量都是向量，如果有一个 $\mathbf{Y}$ 是矩阵，比如是 $\mathbf{x} \to \mathbf{Y} \to \mathbf{z}$ ，则上式并不成立。

从矩阵维度相容的角度也很容易理解上面的链式法则，假设 $\mathbf{x} , \mathbf{y} ,\mathbf{z}$ 分别是m,n.p维向量，则求导结果 $\frac{\partial \mathbf{z}}{\partial \mathbf{x}}$ 是一个 $\times m$ 的雅克比矩阵，而右边 $\frac{\partial \mathbf{z}}{\partial \mathbf{y}}$ 是一个 $\times n$ 的雅克比矩阵， $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 是一个 $\times m$ 的雅克比矩阵，两个雅克比矩阵的乘积维度刚好是 $\times m$ ，和左边相容。

2. 标量对多个向量的链式求导法则

在我们的机器学习算法中，最终要优化的一般是一个标量损失函数，因此最后求导的目标是标量，无法使用上一节的链式求导法则，比如2向量，最后到1标量的依赖关系： $\mathbf{x} \to \mathbf{y} \to z$ ，此时很容易发现维度不相容。

假设 $\mathbf{x},\mathbf{y}$ 分别是 $m, n$ 维向量, 那么 $\frac{\partial z}{\partial \mathbf{x}}$ 的求导结果是一个 $\times 1$ 的向量, 而 $\frac{\partial z}{\partial \mathbf{y}}$ 是一个 $\times 1$ 的向量， $\frac{\partial y}{\partial \mathbf{x}}$ 是一个 $\times m$ 的雅克比矩阵,右边的向量和矩阵是没法直接乘的。

但是假如我们把标量求导的部分都做一个转置，那么维度就可以相容了，也就是：
$(\frac{\partial z}{\partial \mathbf{x}})^T = (\frac{\partial z}{\partial \mathbf{y}})^T\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
但是毕竟我们要求导的是 $(\frac{\partial z}{\partial \mathbf{x}})$

最低0.47元/天解锁文章

未来不再遥远

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则

在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中，我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候，求导的自变量和因变量直接有复杂的多层链式求导的关系，此时微分法使用起来也有些麻烦。需要一些简洁的方法。本文我们讨论矩阵向量求导链式法则，使用该法则很多时候可以帮我们快速求出导数结果。本文的标量对向量的求导，标量对矩阵的求导使用分母布局，向量对向量的求导使用分子布局。如果遇到其他资料求导结果不同，请先确认布局是否一样。1. 向量对向量求导的链式法则首先我们来看看向量对向量求导的链式法
复制链接

扫一扫

专栏目录