矩阵求导之三：定义篇（中）

OlivePlum

已于 2023-10-22 02:00:18 修改

阅读量65

点赞数

分类专栏：矩阵求导文章标签：矩阵线性代数

于 2023-10-20 05:52:50 首次发布

本文链接：https://blog.csdn.net/weixin_43283275/article/details/133938191

版权

矩阵求导专栏收录该内容

6 篇文章 0 订阅

订阅专栏

4 向量对向量求导

4.1 定义

4.1.1 行向量对列向量求导

也称分母布局，用 $\frac{\partial \boldsymbol{y}^T}{\partial \boldsymbol{x}}$ 表示。
$m$ 维行向量 $\boldsymbol{y}^T=\left[ y_1,y_2,\cdots ,y_m \right]$ 对 $n$ 维列向量 $\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_n \right] ^T$ 求导，得到的是 $n\times m$ 维矩阵：
$\frac{\partial \boldsymbol{y}^T}{\partial \boldsymbol{x}}=\left[ \begin{array}{c} \frac{\partial \boldsymbol{y}^T}{\partial x_1}\\ \\ \frac{\partial \boldsymbol{y}^T}{\partial x_2}\\ \\ \vdots\\ \\ \frac{\partial \boldsymbol{y}^T}{\partial x_n}\\ \end{array} \right] =\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_2}{\partial x_1}& \cdots& \frac{\partial y_m}{\partial x_1}\\ \\ \frac{\partial y_1}{\partial x_2}& \frac{\partial y_2}{\partial x_2}& \cdots& \frac{\partial y_m}{\partial x_2}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial y_1}{\partial x_n}& \frac{\partial y_2}{\partial x_n}& \cdots& \frac{\partial y_m}{\partial x_n}\\ \end{matrix} \right]$
数学上将这种矩阵称之为梯度矩阵

4.1.2 列向量对行向量求导

也称分子布局，用 $\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^T}$ 表示。
$m$ 维列向量 $\boldsymbol{y}=\left[ y_1,y_2,\cdots ,y_m \right]^T$ 对 $n$ 维行向量 $\boldsymbol{x}^T=\left[ x_1,x_2,\cdots ,x_n \right]$ 求导，得到的是 $m\times n$ 维矩阵：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^T}=\left[ \begin{array}{c} \frac{\partial y_1}{\partial \boldsymbol{x}}\\ \\\ \frac{\partial y_2}{\partial \boldsymbol{x}}\\ \\\ \vdots\\ \\\ \frac{\partial y_m}{\partial \boldsymbol{x}}\\ \end{array} \right] =\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_1}{\partial x_2}& \cdots& \frac{\partial y_1}{\partial x_n}\\ \\\ \frac{\partial y_2}{\partial x_1}& \frac{\partial y_2}{\partial x_2}& \cdots& \frac{\partial y_2}{\partial x_n}\\ \\\ \vdots& \vdots& \ddots& \vdots\\ \\\ \frac{\partial y_m}{\partial x_1}& \frac{\partial y_m}{\partial x_2}& \cdots& \frac{\partial y_m}{\partial x_n}\\ \end{matrix} \right]$
数学上将这种矩阵称之为雅克比 (Jacobian)矩阵。

根据定义可以看出
$\frac{\partial \boldsymbol{y}^T}{\partial \boldsymbol{x}}\ne \frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^T}\,\,, \frac{\partial \boldsymbol{y}^T}{\partial \boldsymbol{x}}=\left( \frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^T} \right) ^T$

4.2 运算法则

若 $\boldsymbol{a}\left( \boldsymbol{x} \right)$ 和 $\boldsymbol{b}\left( \boldsymbol{x} \right)$ 为 $m$ 维列向量函数， $\lambda \left( \boldsymbol{x} \right)$ 为数量函数， $\boldsymbol{x}$ 为 $n$ 维列向量，则有以下3个运算公式：

4.2.1 加法运算公式

$\frac{\partial \left( \boldsymbol{a}^T\left( \boldsymbol{x} \right) \pm \boldsymbol{b}^T\left( \boldsymbol{x} \right) \right)}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{a}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\pm \frac{\partial \boldsymbol{b}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}$

4.2.2 数乘运算公式

$\frac{\partial \left( \lambda \left( \boldsymbol{x} \right) \boldsymbol{a}^T\left( \boldsymbol{x} \right) \right)}{\partial \boldsymbol{x}}=\frac{\partial \lambda \left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{a}^T\left( \boldsymbol{x} \right) +\lambda \left( \boldsymbol{x} \right) \cdot \frac{\partial \boldsymbol{a}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}$

4.2.3 乘法运算公式

$\frac{\partial \left[ \boldsymbol{a}^T\left( \boldsymbol{x} \right) \cdot \boldsymbol{b}\left( \boldsymbol{x} \right) \right]}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{a}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{b}\left( \boldsymbol{x} \right) +\frac{\partial \boldsymbol{b}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{a}\left( \boldsymbol{x} \right)$
$\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{x}^T}=\frac{\partial \boldsymbol{x}^T}{\partial \boldsymbol{x}}=\boldsymbol{E}$

4.3 示例

【例4.1】求证：
$\frac{\partial \left[ \boldsymbol{a}^T\left( \boldsymbol{x} \right) \cdot \boldsymbol{b}\left( \boldsymbol{x} \right) \right]}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{a}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{b}\left( \boldsymbol{x} \right) +\frac{\partial \boldsymbol{b}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{a}\left( \boldsymbol{x} \right)$
【证】
$\begin{aligned} \frac{\partial \left[ \boldsymbol{a}^T\left( \boldsymbol{x} \right) \cdot \boldsymbol{b}\left( \boldsymbol{x} \right) \right]}{\partial \boldsymbol{x}}&=\left[ \begin{array}{c} \frac{\partial \boldsymbol{a}^T\boldsymbol{b}}{\partial x_1}\\ \vdots\\ \frac{\partial \boldsymbol{a}^T\boldsymbol{b}}{\partial x_i}\\ \vdots\\ \frac{\partial \boldsymbol{a}^T\boldsymbol{b}}{\partial x_n}\\ \end{array} \right] =\left[ \begin{array}{c} \frac{\partial \boldsymbol{a}^T}{\partial x_1}\cdot \boldsymbol{b}+\boldsymbol{a}^T\cdot \frac{\partial \boldsymbol{b}}{\partial x_1}\\ \vdots\\ \frac{\partial \boldsymbol{a}^T}{\partial x_i}\cdot \boldsymbol{b}+\boldsymbol{a}^T\cdot \frac{\partial \boldsymbol{b}}{\partial x_i}\\ \vdots\\ \frac{\partial \boldsymbol{a}^T}{\partial x_m}\cdot \boldsymbol{b}+\boldsymbol{a}^T\cdot \frac{\partial \boldsymbol{b}}{\partial x_m}\\ \end{array} \right] \\ \ \ \\ &=\left[ \begin{array}{c} \frac{\partial \boldsymbol{a}^T}{\partial x_1}\cdot \boldsymbol{b}+\frac{\partial \boldsymbol{b}^T}{\partial x_1}\cdot \boldsymbol{a}\\ \vdots\\ \frac{\partial \boldsymbol{a}^T}{\partial x_i}\cdot \boldsymbol{b}+\frac{\partial \boldsymbol{b}^T}{\partial x_i}\cdot \boldsymbol{a}\\ \vdots\\ \frac{\partial \boldsymbol{a}^T}{\partial x_m}\cdot \boldsymbol{b}+\frac{\partial \boldsymbol{b}^T}{\partial x_m}\cdot \boldsymbol{a}\\ \end{array} \right] \\ \ \ \\ &=\frac{\partial \boldsymbol{a}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{b}\left( \boldsymbol{x} \right) +\frac{\partial \boldsymbol{b}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{a}\left( \boldsymbol{x} \right) \end{aligned}$

【例4.2】求
$\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{x}^T}$ 与 $\frac{\partial \boldsymbol{x}^T}{\partial \boldsymbol{x}}$
其中 $\boldsymbol{x}$ 为 $n$ 维列向量。
【解】
$\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{x}^T}=\left[ \begin{matrix} \frac{\partial x_1}{\partial x_1}& \frac{\partial x_1}{\partial x_2}& \cdots& \frac{\partial x_1}{\partial x_n}\\ \\ \frac{\partial x_2}{\partial x_1}& \frac{\partial x_2}{\partial x_2}& \cdots& \frac{\partial x_2}{\partial x_n}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial x_n}{\partial x_1}& \frac{\partial x_n}{\partial x_2}& \cdots& \frac{\partial x_n}{\partial x_n}\\ \end{matrix} \right] =\left[ \begin{matrix} 1& 0& \cdots& 0\\ \\ 0& 1& \cdots& 0\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ 0& 0& \cdots& 1\\ \end{matrix} \right] =\boldsymbol{E}$
$\frac{\partial \boldsymbol{x}^T}{\partial \boldsymbol{x}}=\left[ \begin{matrix} \frac{\partial x_1}{\partial x_1}& \frac{\partial x_2}{\partial x_1}& \cdots& \frac{\partial x_n}{\partial x_1}\\ \\ \frac{\partial x_1}{\partial x_2}& \frac{\partial x_2}{\partial x_2}& \cdots& \frac{\partial x_n}{\partial x_2}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial x_1}{\partial x_n}& \frac{\partial x_2}{\partial x_n}& \cdots& \frac{\partial x_n}{\partial x_n}\\ \end{matrix} \right] =\left[ \begin{matrix} 1& 0& \cdots& 0\\ \\ 0& 1& \cdots& 0\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ 0& 0& \cdots& 1\\ \end{matrix} \right] =\boldsymbol{E}$
【例4.3】求
$\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{A} \right)}{\partial \boldsymbol{x}}$
其中 $\boldsymbol{x}$ 为 $n$ 维列向量， $\boldsymbol{A}$ 为 $n\times m$ 维常数阵。
【解】设 $\boldsymbol{A}=\left[ \begin{matrix} \boldsymbol{\alpha }_1& \boldsymbol{\alpha }_2& \cdots& \boldsymbol{\alpha }_m\\ \end{matrix} \right]$
其中 $\boldsymbol{\alpha }_i=\left[ \begin{matrix} \alpha _{i1}& \alpha _{i2}& \cdots& \alpha\\ \end{matrix}_{in} \right] ^T$
为 $n$ 维列向量。因此：
$\boldsymbol{x}^T\boldsymbol{A}=\left[ \begin{matrix} \boldsymbol{x}^T\boldsymbol{\alpha }_1& \boldsymbol{x}^T\boldsymbol{\alpha }_2& \cdots& \boldsymbol{x}^T\boldsymbol{\alpha }_m\\ \end{matrix} \right]$
根据定义
$\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{A} \right)}{\partial \boldsymbol{x}}=\left[ \begin{matrix} \frac{\partial \left( \boldsymbol{x}^T\boldsymbol{\alpha }_1 \right)}{\partial \boldsymbol{x}}& \frac{\partial \left( \boldsymbol{x}^T\boldsymbol{\alpha }_2 \right)}{\partial \boldsymbol{x}}& \cdots& \frac{\partial \left( \boldsymbol{x}^T\boldsymbol{\alpha }_m \right)}{\partial \boldsymbol{x}}\\ \end{matrix} \right]$
其中每一个列向量：
$\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{\alpha }_i \right)}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{x}^T}{\partial \boldsymbol{x}}\cdot \boldsymbol{\alpha }_i+\frac{\partial {\boldsymbol{\alpha }_i}^T}{\partial \boldsymbol{x}}\cdot \boldsymbol{x}=\boldsymbol{\alpha }_i$
因此有：
$\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{A} \right)}{\partial \boldsymbol{x}}=\left[ \begin{matrix} \boldsymbol{\alpha }_1& \boldsymbol{\alpha }_2& \cdots& \boldsymbol{\alpha }_m\\ \end{matrix} \right] =\boldsymbol{A}$
【推论】
若 $\boldsymbol{A}$ 为 $n\times n$ 方阵，则：
$\frac{\partial \boldsymbol{x}^T\boldsymbol{A}^T}{\partial \boldsymbol{x}}=\boldsymbol{A}^T$
【例4.4】求 $\frac{\partial \left( \boldsymbol{Bx} \right)}{\partial \boldsymbol{x}^T}$
其中 $\boldsymbol{x}$ 为 $n$ 维列向量， $\boldsymbol{B}$ 为 $m\times n$ 矩阵。
【解】
记 $\boldsymbol{\beta }_i$ 为 $n$ 维列向量，则矩阵 $\boldsymbol{B}$ 写成：
$\boldsymbol{B}=\left[ \begin{matrix} {\boldsymbol{\beta }_1}^T& {\boldsymbol{\beta }_2}^T& \cdots& \boldsymbol{\beta }_m\\ \end{matrix}^T \right] ^T$
则：
$\boldsymbol{Bx}=\left[ \begin{matrix} {\boldsymbol{\beta }_1}^T\boldsymbol{x}& {\boldsymbol{\beta }_2}^T\boldsymbol{x}& \cdots& \boldsymbol{\beta }_m\\ \end{matrix}^T\boldsymbol{x} \right] ^T$
$\frac{\partial \left( \boldsymbol{Bx} \right)}{\partial \boldsymbol{x}^T}=\left[ \begin{matrix} \frac{\partial \left( {\boldsymbol{\beta }_1}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}^T}& \frac{\partial \left( {\boldsymbol{\beta }_2}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}^T}& \cdots& \frac{\partial \left( {\boldsymbol{\beta }_m}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}^T}\\ \end{matrix} \right] ^T$
其中每一个列向量，
$\begin{aligned} \frac{\partial \left( {\boldsymbol{\beta }_i}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}^T}&=\left[ \frac{\partial \left( {\boldsymbol{\beta }_i}^T\boldsymbol{x} \right) ^T}{\partial \boldsymbol{x}} \right] ^T=\left[ \frac{\partial \left( \boldsymbol{x}^T\boldsymbol{\beta }_i \right)}{\partial \boldsymbol{x}} \right] ^T \\ \\ \ \\ &=\left[ \frac{\partial \boldsymbol{x}^T}{\partial \boldsymbol{x}}\cdot \boldsymbol{\beta }_i+\frac{\partial {\boldsymbol{\beta }_i}^T}{\partial \boldsymbol{x}}\cdot \boldsymbol{x}^T \right] ^T \\ \ \\ &={\boldsymbol{\beta }_i}^T \end{aligned}$
因此有：
$\frac{\partial \left( {\boldsymbol{\beta }_i}^T\boldsymbol{x} \right)}{\partial \boldsymbol{x}^T}=\left[ \begin{array}{c} {\boldsymbol{\beta }_1}^T\\ \\ {\boldsymbol{\beta }_2}^T\\ \\ \vdots\\ \\ {\boldsymbol{\beta }_m}^T\\ \end{array} \right] =\boldsymbol{B}$
【例4.5】求二次型 $\boldsymbol{x}^T\boldsymbol{Ax}$ 对 $\boldsymbol{x}$ 的导数，其中 $\boldsymbol{A}$ 为对称矩阵。
【解】根据
$\frac{\partial \left[ \boldsymbol{a}^T\left( \boldsymbol{x} \right) \cdot \boldsymbol{b}\left( \boldsymbol{x} \right) \right]}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{a}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{b}\left( \boldsymbol{x} \right) +\frac{\partial \boldsymbol{b}^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{a}\left( \boldsymbol{x} \right)$
有：
$\begin{aligned} \frac{\partial \left[ \boldsymbol{x}^T\boldsymbol{Ax} \right]}{\partial \boldsymbol{x}}&=\frac{\partial \boldsymbol{x}^T}{\partial \boldsymbol{x}}\cdot \left( \boldsymbol{Ax} \right) +\frac{\partial \left( \boldsymbol{Ax} \right) ^T}{\partial \boldsymbol{x}}\cdot \boldsymbol{x} \\ &=\boldsymbol{Ax}+\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{A}^T \right)}{\partial \boldsymbol{x}}\cdot \boldsymbol{x} \\ &=\boldsymbol{Ax}+\boldsymbol{A}^T\boldsymbol{x}=\left( \boldsymbol{A}+\boldsymbol{A}^T \right) \boldsymbol{x} \\ &=2\boldsymbol{Ax} \end{aligned}$
即：
$\frac{\partial \left[ \boldsymbol{x}^T\boldsymbol{Ax} \right]}{\partial \boldsymbol{x}}=2\boldsymbol{Ax}$
又：
$\frac{\partial \boldsymbol{\alpha }^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}}=\left[ \frac{\partial \boldsymbol{\alpha }\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}^T} \right] ^T,\frac{\partial \boldsymbol{\alpha }\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}^T}=\left[ \frac{\partial \boldsymbol{\alpha }^T\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}} \right] ^T$
故：
$\frac{\partial \left[ \boldsymbol{x}^T\boldsymbol{Ax} \right]}{\partial \boldsymbol{x}^T}=\left[ \frac{\partial \left[ \boldsymbol{x}^T\boldsymbol{Ax} \right] ^T}{\partial \boldsymbol{x}} \right] ^T=\left[ \frac{\partial \left[ \boldsymbol{x}^T\boldsymbol{Ax} \right]}{\partial \boldsymbol{x}} \right] ^T=2\left( \boldsymbol{Ax} \right) ^T=2\boldsymbol{x}^T\boldsymbol{A}$
【例4.6】求函数 $\boldsymbol{\lambda }^T\boldsymbol{Ax}$ 对 $\boldsymbol{x}$ 的导数。其中 $\boldsymbol{\lambda }^T$ 为 $1\times n$ 的行向量， $\boldsymbol{A}$ 为 $n\times n$ 的常数矩阵， $\boldsymbol{x }$ 为 $n$ 维列向量。
【解】因为 $\boldsymbol{\lambda }^T\boldsymbol{Ax}$ 为标量，其与其转置相等：
$\boldsymbol{\lambda }^T\boldsymbol{Ax}=\left( \boldsymbol{\lambda }^T\boldsymbol{Ax} \right) ^T=\boldsymbol{x}^T\boldsymbol{A\lambda }$
于是：
$\frac{\partial \left( \boldsymbol{\lambda }^T\boldsymbol{Ax} \right)}{\partial \boldsymbol{x}}=\frac{\partial \left( \boldsymbol{x}^T\boldsymbol{A}^T\boldsymbol{\lambda } \right)}{\partial \boldsymbol{x}}=\boldsymbol{A}^T\boldsymbol{\lambda }$

5 向量对矩阵求导

5.1 定义

设矩阵
$\boldsymbol{X}_{m\times n}=\left[ \begin{matrix} x_{11}& x_{12}& \cdots& x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ x_{m1}& x_{m2}& \cdots& x_{mn}\\ \end{matrix} \right]$
以矩阵 $\boldsymbol{X}$ 为自变量的 $n$ 维列向量函数：
$\boldsymbol{z}\left( \boldsymbol{X} \right) =\left[ \begin{matrix} z_1\left( \boldsymbol{X} \right)& z_2\left( \boldsymbol{X} \right)& \cdots& z_n\\ \end{matrix}\left( \boldsymbol{X} \right) \right] ^T$
在分子布局下，有：
$\frac{\partial \boldsymbol{z}\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}=\left[ \begin{matrix} \frac{\partial z_1\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}& \frac{\partial z_2\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}& \cdots& \frac{\partial z_n\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}\\ \end{matrix} \right] ^T$
其中：
$\frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}=\left[ \begin{matrix} \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{11}}& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{12}}& \cdots& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{1n}}\\ \\ \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{21}}& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{22}}& \cdots& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{2n}}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{m1}}& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{m2}}& \cdots& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{mn}}\\ \end{matrix} \right]$
在分母布局下，有：
$\frac{\partial \boldsymbol{z}^T\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}=\left[ \begin{matrix} \frac{\partial z_1\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}& \frac{\partial z_2\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}& \cdots& \frac{\partial z_n\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}\\ \end{matrix} \right]$
其中：
$\frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}}=\left[ \begin{matrix} \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{11}}& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{12}}& \cdots& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{1n}}\\ \\ \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{21}}& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{22}}& \cdots& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{2n}}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{m1}}& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{m2}}& \cdots& \frac{\partial z_i\left( \boldsymbol{X} \right)}{\partial x_{mn}}\\ \end{matrix} \right]$

5.2 形状规则

向量 $\boldsymbol{y}$ 对矩阵 $\boldsymbol{X}$ 求导，分为两步：
Step1：向量 $\boldsymbol{y}$ 的每个元素是标量，先做 $\boldsymbol{y}$ 的每个元素对矩阵 $\boldsymbol{X}$ 求导，这里按照标量对矩阵的求导规则进行。
Step2：第一步完成后，将求导结果按 $\boldsymbol{y}$ 的形状排列。
详细内容请阅读参考文献【1】。

参考文献

[1] 向量对矩阵求导
[2] 向量，标量对向量求导数

OlivePlum

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
矩阵求导之三：定义篇（中）

5 向量对矩阵求导5.1 定义设矩阵Xm×n=[x11x12⋯x1nx21x22⋯x2n⋮⋮⋱⋮xm1xm2⋯xmn]\boldsymbol{X}_{m\times n}=\left[ \begin{matrix} x_{11}& x_{12}& \cdots& x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots& \vdots& \ddots& \vdots
复制链接

扫一扫