定义
对于标量函数对于矩阵的导数,可以记做:
首先对于标量函数对于标量的微分,可以写作:
然后推广到标量函数对于向量的微分,可以理解为每一个向量的分量对于标量微分的贡献之和。
观察上面的式子,向量微分的左边是函数对于向量的偏微分的转置,从而转化为了向量的内积形式。因此,推广到矩阵
上式中,
对于大小相同的矩阵
又考虑到
于是在等式右边得到了矩阵内积的定义,因此矩阵
因此,在实际运算中,我们只需要先展开函数的微分,然后在式子右边凑出
规则
首先给出矩阵微分的规则:
-
,加减运算可以直接提出来
-
矩阵乘法的微分,注意每个分量中的矩阵顺序不能改变,这是由矩阵乘法不可交换的性质决定的。
-
转置可以提出来
-
trace同上
-
证明:
因此,
接下来给出trace的一些性质:
-
标量转换
-
转置trace一样
-
线性拆分
-
满足交换律
-
,这里三个矩阵
的大小相同。证明略。
举例
1
对
由于
由于
通过交换律:
由:
得到:
2
对
消去
等式右边引入trace运算,同时通过trace的线性分解性质得到:
又由于trace中转置不变性,将第一项内的矩阵乘积转置后得到
由于trace的线性,最后将两个项合并得到:
所以:
3 线性回归的最小二乘法求导
由定义得:
上式中,
第一项首先将转置提出来
接着去除微分项中不含
接着引入trace:
得到:
由于:
代入得:
所以
另上面的结果为0,得到:
化简得到:
如果不考虑偏置,