最常见的函数为 y = f ( x ) y=f(x) y=f(x),其中 x x x为自变量、 y y y为因变量,此时 x , y x,y x,y均为标量,
将 x , y x,y x,y引申至向量、矩阵,便有了下面这幅图(截图来自《动手学深度学习》part-0_6):
此图直观的表示了 标量、向量、矩阵 相互之间的导数,
对此图,有两点需要说明:
-
列向量是向量的默认方向
-
分子布局
对于第1点,大部分文献都是这样认为;第2点,无论是分子布局还是分母布局,都只是对导数的一种表
示,并无本质区别,在使用时保持前后一致即可。
区分分子布局和分母布局并不难:求完导数后,哪一方的布局方式未发生变化便为哪一方布局/哪一方的
布局方式发生改变便为另一方布局。
更直白的说,看 m 、 l / n 、 k m、l/n、k m、l/n、k 的位置有没有发生变化,谁没变便是按谁布局,另一方则进行转置。
比如,向量 ( m , 1 ) (m,1) (m,1)-矩阵 ( n , k ) (n,k) (n,k),求完导数后为 ( m , k , n ) (m,k,n) (m,k,n), 很显然为分子布局,如果是分母布局,那求导
后就应该是 ( n , k , m ) (n,k,m) (n,k,m)。
当然,以上说法有点投机取巧,如果想要深入了解,推荐看 知乎-Iterator 写的有关矩阵求导的几篇文章。
传送门