关于向量、矩阵求导的记录

在修Data Mining这门课的时候,从多元函数的线性回归(Linear regression)、支持向量机(SVM)、神经网络(Neural Network),都会涉及到很多求导数求极值的问题,看着Sunny老师上课轻松推导一头雾水,于是决定补一下这方面的求导的知识。
然后我看到网上的资料很多,于是这里应该不会自己从头整理一遍,更多是资料的整理和如果自己遇到的问题的推导记录吧。

入门详细过程

首先是要感谢刘建平Pinard的博客,基本从标量函数求导的定义讲起,一步一步到最后矩阵的求导。还有例子解析和练手,认为十分适合从头读起。(二)~(四)分别介绍了求导的3种方法。第五章的内容感觉有点复杂(有的步骤看不懂),而且在机器学习里似乎不常用,我也没细究了。

(一) 求导定义与求导布局

这篇blog主要是介绍了分子布局分母布局的定义。需要记住的有两个点:

  1. 一般有习惯,标量对矩阵或向量的求导采用分母布局,而向量对向量的求导采用分子布局
  2. 由于符号习惯(notation)的差异,可能存在不同资料中求导结果有所不同,一般会是转置的差别,如果有不一样首先要检查一下两份资料是否在同一的约定下,不要看到不一样就嚷嚷

(二) 矩阵向量求导之定义法

这篇blog介绍了求导的第一种方法,从定义来。基本上就是把每个量展开,求导,再重新合并成矩阵形式。(不好做,但是是根本,也是通用方法)

(三) 矩阵向量求导之微分法

这篇blog主要是利用的微分和导数的关系,即下面的式子。
在这里插入图片描述
这种方法避免了展开又重新合并的困难,但需要对矩阵微分运算以及迹函数的运算规律有较高的熟练度。文中的规律截图如下:
在这里插入图片描述
在这里插入图片描述

(四)矩阵向量求导链式法则

这篇blog介绍了平时标量常用的链式法则(chain rule)的向量拓展,如下:
在这里插入图片描述
值得注意的是:这里这个转置并不是链式法则造成的,而是仅仅因为notation的差异而造成的,如果把标量对向量的求导改成分子布局,则不会出现这样的转置,而会与常规标量的链式法则一样了。

(五)矩阵对矩阵的求导

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值