矩阵求导术(一)——标量对矩阵的求导方法

矩阵求导术(一)——标量对矩阵的求导方法

  • 前言

自从开始了解机器学习、深度学习的知识以来,便免不了要同矩阵打交道。

矩阵的基本运算法则、矩阵分解等均是很重要的基础知识,不论是在统计机器学习领域还是在如今大火的深度学习领域。矩阵运算使得多变量计算式可以更加简洁地表达,从而提高算法开发效率。但好在上述知识在一般的线性代数教材上均有详细阐述,但一旦涉及矩阵求导,就仿佛涉足了一个线性代数与数学分析的接壤区域,鲜有专门的教材体积如何计算矩阵求导。

最先是在一个微信公众号上读到了矩阵求导的文章,但文章最先直接就开始摆出一些所谓“常用结论”,这让我不太喜欢,我需要的是真正能说服我的通法,所以没有继续看下去;如今再次遇到矩阵求导问题,才记起那篇微信推送文章。好在文章后面有参考资料,所以系统解决了矩阵求导问题,这里做一个简略的总结。

  • 参考资料

1. 微信推送原文

2. 知乎高赞

  • 矩阵求导——标量对矩阵求导

  • 主要参考上面知乎高赞文章
  • 解决矩阵求导问题的总体思路是:微分+trace trick

注意,向量(含列向量、行向量)也是矩阵的一种特殊情况,所以也在本部分内容的讨论范围。

  • 布局说明

字母与向量和矩阵的对应关系同参考文献。需要说明的是,对于向量的求导算法更偏向于“分母布局”,即运算得到的矩阵(或向量)要与求导式分母矩阵的形状保持一致。
\frac{\partial f }{\partial \boldsymbol X}=[\frac{\partial f }{\partial \boldsymbol X_{ij}}]

<
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值