矩阵求导

1. 摘要

∂ Y ∂ X \frac{\partial Y}{\partial X} XY Y Y Y中的每个元素对 X X X中的每个元素求导,最终有 ∣ Y ∣ ∗ ∣ X ∣ |Y|*|X| YX个元素,我们需要确定的是这些元素的布局。一般常用的布局有分子布局和分母布局。其中两者互为转置。

​ 分母布局可以概括为 { 1. 标 量 不 变 , 向 量 拉 伸 2. 前 面 横 向 拉 , 后 面 纵 向 拉 \begin{cases} 1. 标量不变,向量拉伸\\ 2. 前面横向拉,后面纵向拉\end{cases} {1.2. ,分子布局可以概括为 { 1. 标 量 不 变 , 向 量 拉 伸 2. 前 面 纵 向 拉 , 后 面 横 向 拉 \begin{cases} 1. 标量不变,向量拉伸\\ 2. 前面纵向拉,后面横向拉\end{cases} {1.2.

Y标量 y y y列向量 y m × 1 y_{m \times 1} ym×1矩阵 Y m × n Y_{m \times n} Ym×n
X \pmb X XXX布局方式符号形状符号形状符号形状
标量 x x x分子布局 ∂ y ∂ x \frac{\partial {y}}{\partial x} xy 1 × 1 1 \times 1 1×1 ∂ y ∂ x \frac{\partial {\pmb y}}{\partial x} xyyy 1 × m 1 \times m 1×m ∂ Y ∂ x \frac{\partial {Y}}{\partial x} xY m × n m \times n m×n
标量 x x x分母布局 ∂ y ∂ x \frac{\partial {y}}{\partial x} xy 1 × 1 1 \times 1 1×1 ∂ y ∂ x \frac{\partial {\pmb y}}{\partial x} xyyy$ m \times 1$ ∂ Y ∂ x \frac{\partial {Y}}{\partial x} xY
列向量** x n × 1 x_{n \times 1} xn×1**分子布局 ∂ y ∂ x \frac{\partial { y}}{\partial \pmb x} xxxy 1 × n 1 \times n 1×n ∂ y ∂ x \frac{\partial {\pmb y}}{\partial \pmb x} xxxyyy$ m \times n$ ∂ Y ∂ x \frac{\partial { Y}}{\partial \pmb x} xxxY
列向量** x n × 1 x_{n \times 1} xn×1**分母布局 ∂ y ∂ x \frac{\partial { y}}{\partial \pmb x} xxxy$ n \times 1$ ∂ y ∂ x \frac{\partial {\pmb y}}{\partial \pmb x} xxxyyy n × m n \times m n×m ∂ Y ∂ x \frac{\partial { Y}}{\partial \pmb x} xxxY
矩阵 X p × q X_{p \times q} Xp×q分子布局 ∂ y ∂ X \frac{\partial {y}}{\partial X} Xy q × p q \times p q×p ∂ y ∂ X \frac{\partial {\pmb y}}{\partial X} Xyyy ∂ Y ∂ X \frac{\partial {Y}}{\partial X} XY
矩阵 X p × q X_{p \times q} Xp×q分子分母布局 ∂ y ∂ X \frac{\partial {y}}{\partial X} Xy p × q p \times q p×q ∂ y ∂ X \frac{\partial {\pmb y}}{\partial X} Xyyy ∂ Y ∂ X \frac{\partial {Y}}{\partial X} XY

2. 布局

2.1 分子布局

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ixaUnKVt-1607862917037)(https://wikimedia.org/api/rest_v1/media/math/render/svg/df4dab37ae19b5f0cf0d0eb6572f79414823309e)]

下面两个只有分子布局有:

在这里插入图片描述

2.2 分母布局

在这里插入图片描述

3. 运算法则

在分子布局和分母布局表示法之间切换时,运算结果将被转置。 ∂ Y ∂ x \frac{\partial Y}{\partial x} xY是分子布局独有的)

下面是最重要的三条法则:链式求导法则,乘积法则和求和法则,在不同场景(标量对向量求导,向量对标量求导,向量对向量求导,矩阵对标量求导,标量对矩阵求导)中是否适用。

  1. 求和法则普遍适用
  2. 乘积法则在以下大多数情况下适用,只要矩阵乘积的维度能够保持,因为矩阵乘法是不一定满足交换率的。
  3. 链式求导法则在某些情况下适用,但不幸的是,不适用于矩阵对标量求导和标量对矩阵求导。
  • a,b,c,d和e表示标量,标量u和v是x,xX之一的函数;
  • abcde表示向量,向量uv是x,xX之一的函数;
  • ABCDE表示矩阵,矩阵UV是x,xX之一的函数。

3.1 向量对向量求导

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e2eJptcn-1607862917040)(C:\Users\19532\AppData\Roaming\Typora\typora-user-images\image-20201213201647396.png)]

3.2 标量对向量求导

在这里插入图片描述

3.3 矩阵对标量求导

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ry8Lx4o0-1607862917042)(C:\Users\19532\AppData\Roaming\Typora\typora-user-images\image-20201213202253330.png)]

NOTE: The formulas involving the vector-by-vector derivatives ∂ g ( u ) ∂ u 和 ∂ f ( g ) ∂ g \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} 和\frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}} ug(u)gf(g) (whose outputs are matrices) assume the matrices are laid out consistent with the vector layout, i.e. numerator-layout matrix when numerator-layout vector and vice versa; otherwise, transpose the vector-by-vector derivatives.

3.4 标量对矩阵求导

https://en.wikipedia.org/wiki/Matrix_calculus#

3.5 矩阵对标量求导

https://en.wikipedia.org/wiki/Matrix_calculus#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Darius_Tanz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值