矩阵求导与矩阵微分
符号定义
使用大写的粗体字母表示矩阵
使用小写的粗体字母表示向量
使用小写的正体字母表示标量
需要明白的是,矩阵求导的意义在哪来,我们回想一下函数求导的意义,最大的作用就是寻找极值,导数为0的位置就是函数极值位置,某个点的导数代表梯度下降的方向。
0.布局约定
当向量对于向量的求导的时候,通常会有两种结果,出现不同结果的原因是所使用的的布局不同。通常布局(Layout)有两种,分子布局(numerator layout)和分母布局(denominator layout),简单来说,两种区别在于:
- 分子布局:分子为列向量或者分母为行向量
- 分母布局,分子为行向量或者分母为列向量
注意到分子布局与分母布局只是相差一个转置。我们考虑的大多数问题都是以函数自变量为一个矩阵或者向量(我们使用列向量),函数值为一个数,采用分母布局,得到的结果的维度将于自变量相同,所以下面都采用分母布局。
1.课本上的定义
在开始之前,先看一下戴华老师的《矩阵论》里面关于矩阵微分的描述:
矩阵
矩阵
函数对矩阵的导数
设