向量与矩阵的微分是机器学习中的重点,之前一直只是满足于记住结论。最近最优化方法的课又涉及到相关知识了,对部分推导过程不甚了解的我上得有亿点点难受,于是翻了翻CSDN和B站上的部分博客,理了理部分的推导过程,算是清楚了些。
分子布局与分母布局笔者没有涉及,需要的读者请另外查找。
不做说明的情况下,小写字母代表标量,加粗的小写字母代表向量,加粗的大写字母代表矩阵。默认情况下向量为列向量。
关于迹,我认为有几条显而易见的性质需要回顾一下:
若
-
- 特别地我们有
这两个公式告诉我们一个矩阵的转置和另一个矩阵相乘再求迹相当于求两个矩阵的内积。推导过程也很显然,根据矩阵的乘法,对角线上的元素的值为前面那个矩阵的行向量和后面那个矩阵对应的列向量的内积,再把对角线上所有向量的内积值相加,就是矩阵的内积值了。
这个做法可以引申到向量内积,此话怎讲?假设两个n维实向量