1. 矩阵求导法则
矩阵的求导分为:标量求导、向量求导、矩阵求导三个方面。
1.1 标量求导
- 矩阵和向量对标量求导,只需矩阵中的每个量都对标量进行求导,这个很好理解。
- 标量对矩阵的向量求导,也是同样的,等价于标量对矩阵的每个分量进行求导,并且保持维数不变。
举例。设
y
y
y为一个标量,
x
T
=
[
x
1
x
2
⋯
x
n
]
x^T=[x_1 x_2 \cdots x_n]
xT=[x1x2⋯xn]为一个行向量,则:
∂
y
∂
x
T
=
[
∂
y
∂
x
1
⋯
∂
y
∂
x
n
]
\frac{\partial y}{\partial x^T}=[ \frac{\partial y}{\partial x_1} \cdots \frac{\partial y}{\partial x_n} ]
∂xT∂y=[∂x1∂y⋯∂xn∂y]
1.2 向量求导
对于向量求导,我们可以将向量看做一个标量,先使用上面的标量求导法则,最后将向量形式化为标量进行。
举例,
设
y
T
=
[
y
1
⋯
y
n
]
y^T=[y_1 \cdots y_n]
yT=[y1⋯yn] 是一个行向量,
x
=
[
x
1
⋮
x
m
]
x=\begin{bmatrix} x_1 \\ \vdots \\ x_m\end{bmatrix}
x=⎣⎢⎡x1⋮xm⎦⎥⎤是一个列向量。
则
∂
y
T
∂
x
=
[
∂
y
1
∂
x
⋯
∂
y
n
∂
x
]
=
[
∂
y
1
∂
x
1
⋯
∂
y
n
∂
x
1
⋮
⋱
⋮
∂
y
1
∂
x
m
⋯
∂
y
n
∂
x
m
]
\begin{aligned} \frac{\partial y^T}{\partial x}&=[\frac{\partial y_1}{\partial x} \cdots \frac{\partial y_n}{\partial x}] \\ &= \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_1} \\ \vdots&\ddots&\vdots \\ \frac{\partial y_1}{\partial x_m} & \cdots & \frac{\partial y_n}{\partial x_m} \end{bmatrix} \end{aligned}
∂x∂yT=[∂x∂y1⋯∂x∂yn]=⎣⎢⎡∂x1∂y1⋮∂xm∂y1⋯⋱⋯∂x1∂yn⋮∂xm∂yn⎦⎥⎤
1.3矩阵求导
与向量求导类似,先将矩阵当做一个标量,再使用标量的求导法则。
举例,
设
Y
=
[
y
11
⋯
y
1
m
⋮
⋱
⋮
y
n
1
⋯
y
n
m
]
Y=\begin{bmatrix} y_{11} & \cdots & y_{1m} \\ \vdots & \ddots & \vdots \\ y_{n1} & \cdots & y_{nm}\end{bmatrix}
Y=⎣⎢⎡y11⋮yn1⋯⋱⋯y1m⋮ynm⎦⎥⎤是
n
∗
m
n*m
n∗m矩阵,
x
=
[
x
1
,
⋯
 
,
x
p
]
x=[x_1,\cdots,x_p]
x=[x1,⋯,xp]是
p
p
p维列向量,则
∂
Y
∂
x
=
[
∂
Y
∂
x
1
,
⋯
 
,
∂
Y
∂
x
p
]
\frac{\partial Y}{\partial x}=[\frac{\partial Y}{\partial x_1}, \cdots, \frac{\partial Y}{\partial x_p}]
∂x∂Y=[∂x1∂Y,⋯,∂xp∂Y]