矩阵求导方法
在机器学习过程中,我们经常会对矩阵进行相关的操作,现对矩阵求导方法进行概况与推导。
首先总结矩阵求导的本质,即矩阵A中每个元素对矩阵B中每个元素求导。我们先从宏观上理解这个公式,即从求导后元素的个数来理解(假设):
1> 若矩阵A是1x1 的矩阵(即一个数),矩阵B也是1x1的矩阵,那么矩阵C元素个数为1x1=1 ;
2> 若矩阵A是nx1的矩阵,矩阵B是1x1的矩阵,那么矩阵C元素个数为nx1 ;
3> 若矩阵A是nx1的矩阵,矩阵B也是px1的矩阵,那么矩阵C为元素个数nxp ;
4>若矩阵A是nxm的矩阵,矩阵B也是pxq的矩阵,那么矩阵C为元素个数nxmxpxq ;
从上面4个小例子中相信你已经对上文提到的矩阵求导的本质有了一个初步的认识,下面具体介绍矩阵求导的方法:Y-X拉伸(或f(x)-X拉伸)。其主要方法总结为以下两点:
看到这里,是不是懵了呢,这Y-X拉伸说的是啥啊。现在通过三个例子来理解这个矩阵求导的方法。开始写例子之前,先说明以下标量和向量,简单来说,标量就是一个数,如1,2,3这种,向量可以理解为是一串数字,如(1,2,3)。
Example 1:
则 为什么
会是这个结果呢?我们来对照上文总结的两句话:标量不变,向量拉伸和f(x)横向拉,x纵向拉。对与这个例子,f(x)为标量,不需要变;x为向量,需要纵向拉伸,因此
就成为了nx1的矩阵。再根据矩阵求导本质:矩阵A中每个元素对矩阵B中每个元素求导。那么即f(x)对x1,x2,…xn分别求导。不知道讲到这里是否明白了些,还有疑惑的可以通过下面两个例子进行理解。
Example 2:
则
同样的,我们根据标量不变,向量拉伸和f(x)横向拉,x纵向拉知道,这个例子x为标量,不需要变;f(x)为向量,需要进行横向拉伸,故得到上式。
Example 3:
这个例子可以发现f(x)和x都为向量,那么应该既要进行纵拉伸,又要进行横拉伸。不妨先固定f(x)不变(把f(x)先看出是标量),先进行纵拉伸。
则
但现在上式的每一行如中f(x)为向量,所以要把每行都进行横拉伸,结果如下:
则
相信通过上面的例子,你对矩阵的求导已经有了一定的理解,现通过上述的方法证明一些常用的矩阵求导公式。
①
已知:
则
即
②证明
已知:
这个公式的证明和①基本一致,读者可按照①中步骤自行尝试证明,这里不在过多叙述。
③证明
已知:
这题给出两条证明思路:
Th1:按照①和②的方法一步步推导,提示: 是一个数(标量),化简后
,这里也不在浪费篇幅证明,明白上述提示后,证明方法和①②* 基本一致。*
Th2:这题是对乘积求导,可以利用分部求导法(这里利用公式: )注:对公式不明白的可以查找相关资料或自行推导。
这里将X看做U, AX看着V, 则: