学习来源:《矩阵分析与应用》 张贤达 清华大学出版社
矩阵求导
一、标量、向量、矩阵和函数
对于一个函数
根据函数 和自变量
的不同类型可以将函数
分为不同的种类。
1. 函数为标量
为实值标量函数,用
表示。
1.1 自变量为标量
函数的自变量是标量,用 表示。如:
1.2 自变量为向量
函数的自变量是向量,用 表示。如:
1.3 自变量为矩阵
函数的自变量是矩阵,用 表示。如:
2. 函数为向量
为向量函数,用
表示。
2.1 自变量为标量
2.2 自变量为向量
2.3 自变量为矩阵
3. 函数为矩阵
为矩阵函数,用
表示。
3.1 自变量为标量
3.2 自变量为向量
3.3 自变量为矩阵
二、求导
求导的本质就是函数 中的每个
分别对自变量中的每个元素求偏导,最终将结果写成向量、矩阵的形式。
例如:有
列向量形式的求导结果:
以行向量的形式展开:
因此,若函数 有
个
,自变量
有
个元素,则求导后有
个结果,这
个结果可以按行向量排列、列向量排列或以矩阵形式排列。
三、矩阵求导结果的布局
1. 自变量为向量
的实值函数
1.1 行向量偏导形式:
1.2 列向量偏导形式(梯度向量形式):
与 互为转置。
2. 自变量为矩阵
的实值函数
2.1 行向量偏导形式
先把矩阵 按列划分转化为一个个列向量,再按顺序组成一个列向量,即:
然后按照函数为标量函数,自变量为向量的形式求导,得到:
2.2 Jacobian 矩阵形式
先把自变量 转置,再对转置后的每个位置的元素求偏导,结果布局与
转置后的布局一致。
2.3 列向量偏导形式(梯度向量形式)
先把自变量 按 2.1 中的操作列向量化,再按 1.2 的式子进行求导:
2.4 梯度矩阵形式
直接对自变量 的每个位置的元素逐个求偏导,结果布局与
的布局一致。