一、矩阵和向量求导
参考地址:https://cloud.tencent.com/developer/article/1668818
求导公式大全:https://cloud.tencent.com/developer/article/1551901
机器学习中最常用的矩阵求导有:标量对矩阵的求导,矩阵对标量求导以及向量对向量的求导。下面分别对这几种求导方式进行介绍。
标量对矩阵的求导
如果函数f把一个元素为实数的m×n矩阵,映射为一个实数,求导其实就是实值函数f对矩阵X求导其实就是f对X的各元素分别求导得到一个与X同型的矩阵。比如
Y = A' * X * B --> DY/DX = A * B' 其中 A(m,1) ,X(m,n) ,B(n,1)
Y = A' * X' * B --> DY/DX = B * A'
以Y = A' * X * B 为例:
我们先直接计算y
故y对x求导为
也可以参见求导公式
矩阵对标量的求导
如果函数f把实数x映射成一个元素为实数的m×n矩阵
也就是矩阵Y对实数x求导其实就是矩阵的各元素分别对x求导得到一个与Y同型的矩阵。
以Y=A*x为例,求导为A
求导就是分别将y1,y2对x进行求导,结果为
向量对向量的求导
如果函数f把元素为实数的n维向量映射成一个元素为实数的m维Y向量(多元线性函数的组合)
也就是m维向量Y对n维向量X求导其实就是Y向量的第一个元素对X向量的各元素分别求导形成结果矩阵的第一行,Y向量的第二个元素对X向量的各元素分别求导形成结果矩阵的第二行,以此类推,最后得到一个m×n的矩阵。
Y = A * X --> DY/DX = A'
Y = X * A --> DY/DX = A
以Y = A * X求导过程为例
故分别将y1、y2对x1、x2求导的结果为:
参考地址:https://cloud.tencent.com/developer/article/1551901
二、几种重要的矩阵
1、梯度(Gradient)
2、雅克比矩阵(Jacobian matrix)
3、海森矩阵(Hessian matrix)