1、定义
以n维向量 x x 为变元的实标量函数相对于 x x 的梯度结果为n*1列向量,定义为
其中, x x 默认为列向量,默认为行向量。
2、拓展定义
2.1 实标量函数
f(x)
f
(
x
)
相对于1*n行向量
xT
x
T
的梯度结果为1*n行向量,定义为
2.2 m维行向量函数
f(x)=[f1(x),f2(x),…,fm(x)]
f
(
x
)
=
[
f
1
(
x
)
,
f
2
(
x
)
,
…
,
f
m
(
x
)
]
相对n维实向量
x
x
(默认是列向量)的梯度为一
n∗m
n
∗
m
矩阵,定义为
两个特例:
(1)若m*1向量函数 f(x)=y=[y1,y2,…,ym]T f ( x ) = y = [ y 1 , y 2 , … , y m ] T ,其中 y1,y2,…,ym y 1 , y 2 , … , y m 是向量的标量函数。则一阶梯度
是一个 m∗n m ∗ n 矩阵,称为 向量函数 y=[y1,y2,...,ym]T y = [ y 1 , y 2 , . . . , y m ] T 的 Jacobi矩阵。
(2)若 f(x)=[x1,x2,...,xn] f ( x ) = [ x 1 , x 2 , . . . , x n ] ,则
例如:
x=[x1,x2,x3]T x = [ x 1 , x 2 , x 3 ] T ,则 xT=[x1,x2,x3] x T = [ x 1 , x 2 , x 3 ] ,所以
公式 ∂xT∂x=I(I是单位矩阵) ∂ x T ∂ x = I ( I 是 单 位 矩 阵 ) 非常有用
3、导出的基本公式
A A 和均与向量 x x 无关,有
(1)
(2) ∂yTAx∂x=ATy ∂ y T A x ∂ x = A T y
(3) ∂xTAx∂x=Ax+ATx ∂ x T A x ∂ x = A x + A T x
(4) ∂xTAx∂x=2Ax(A为对称矩阵,转置矩阵等于本身) ∂ x T A x ∂ x = 2 A x ( A 为 对 称 矩 阵 , 转 置 矩 阵 等 于 本 身 )
注:矩阵的转置
参考
[1]《矩阵分析与运用》第5章
[2]《线性代数》第二版