矩阵的微分和矩阵的迹(前置知识了解)
进行推导之前,需要引入矩阵迹的概念,因为迹是求解一阶矩阵微分的工具。
矩阵迹的定义是
简单的说就是左上角到右下角对角线上元素的和。
接下来有几个性质在下面推导过程中需要用到:
-
, a 是标量 ( )
-
更近一步
证明:假设 A 是 矩阵, B 是 矩阵,则有同理:连起来,即 -
证明:按照矩阵梯度的定义:假设 A 是 矩阵, B 是 矩阵,则有所以有
-
证明:假设 A 是 矩阵 -
证明:
矩阵的迹的微分等于矩阵的微分的迹。 -
证明: 根据实标量函数梯度的乘法法则: 若 f(A)、g(A)、h(A) 分别是矩阵 A 的实标量函数,则有令 ,由性质5,矩阵的迹的微分等于矩阵的微分的迹,那么则有:
3. 推导
回到之前的代价函数中:
求导:
上式中,对 矩阵求导, 与 无关,所以这一项为 0 。 是标量,由性质4可以知道,,因为 都是标量,所以它们的也等于它们的迹,(处理矩阵微分的问题常常引入矩阵的迹),于是有
上面第三步用的性质2矩阵迹的交换律,第五步用的性质3。
为了能进一步化简矩阵的微分,我们在矩阵的迹上面乘以一个单位矩阵,不影响结果。于是:
利用性质6 展开上面的式子,令 。
令 ,即 , 于是 ,这里假设 这个矩阵是可逆的,等号两边同时左乘的逆矩阵,得到
最终结果也就推导出来了,
但是这里有一个前提条件是 是非奇异(非退化)矩阵, 即