矩阵求导术(一)——标量对矩阵的求导方法
-
前言
自从开始了解机器学习、深度学习的知识以来,便免不了要同矩阵打交道。
矩阵的基本运算法则、矩阵分解等均是很重要的基础知识,不论是在统计机器学习领域还是在如今大火的深度学习领域。矩阵运算使得多变量计算式可以更加简洁地表达,从而提高算法开发效率。但好在上述知识在一般的线性代数教材上均有详细阐述,但一旦涉及矩阵求导,就仿佛涉足了一个线性代数与数学分析的接壤区域,鲜有专门的教材体积如何计算矩阵求导。
最先是在一个微信公众号上读到了矩阵求导的文章,但文章最先直接就开始摆出一些所谓“常用结论”,这让我不太喜欢,我需要的是真正能说服我的通法,所以没有继续看下去;如今再次遇到矩阵求导问题,才记起那篇微信推送文章。好在文章后面有参考资料,所以系统解决了矩阵求导问题,这里做一个简略的总结。
-
参考资料
1. 微信推送原文;
2. 知乎高赞;
-
矩阵求导——标量对矩阵求导
- 主要参考上面知乎高赞文章
- 解决矩阵求导问题的总体思路是:微分+trace trick
注意,向量(含列向量、行向量)也是