矩阵的微分和矩阵的迹(前置知识了解)
进行推导之前,需要引入矩阵迹的概念,因为迹是求解一阶矩阵微分的工具。
矩阵迹的定义是
简单的说就是左上角到右下角对角线上元素的和。
接下来有几个性质在下面推导过程中需要用到:
-
, a 是标量 (
)
-
更近一步
证明:假设 A 是矩阵, B 是
矩阵,则有
同理:
连起来,即
-
证明:按照矩阵梯度的定义:假设 A 是
矩阵, B 是
矩阵,则有
所以有
-
证明:假设 A 是矩阵
-
证明:
矩阵的迹的微分等于矩阵的微分的迹。
-
证明: 根据实标量函数梯度的乘法法则: 若 f(A)、g(A)、h(A) 分别是矩阵 A 的实标量函数,则有令
,由性质5,矩阵的迹的微分等于矩阵的微分的迹,那么则有:
3. 推导
回到之前的代价函数中:
求导:
上式中,对 矩阵求导,
与
无关,所以这一项为 0 。
是标量,由性质4可以知道,
,因为
都是标量,所以它们的也等于它们的迹,(处理矩阵微分的问题常常引入矩阵的迹),于是有
上面第三步用的性质2矩阵迹的交换律,第五步用的性质3。
为了能进一步化简矩阵的微分,我们在矩阵的迹上面乘以一个单位矩阵,不影响结果。于是:
利用性质6 展开上面的式子,令 。
令 ,即
, 于是
,这里假设
这个矩阵是可逆的,等号两边同时左乘
的逆矩阵,得到
最终结果也就推导出来了,
但是这里有一个前提条件是 是非奇异(非退化)矩阵, 即