一般来说,矩阵求导到两个向量还能做,否则的话就没法定义了。这导致深度学习推导后向传递公示的时候,都先拉直然后在说。比如说这个CNN的推导。这里还比较幸运,还是能折腾出来的,等到RNN就不好办了。
其实借用于微分几何的方法,可以定义一套很简单的办法。这套办法在这里肯定写不清楚,所以我上传到我的资料去了。
最后说一下,为什么要学这个。
- 面试
- 在大部分实现中,AutoGrad都不太好,所以自己能写出来能大大加速。
一般来说,矩阵求导到两个向量还能做,否则的话就没法定义了。这导致深度学习推导后向传递公示的时候,都先拉直然后在说。比如说这个CNN的推导。这里还比较幸运,还是能折腾出来的,等到RNN就不好办了。
其实借用于微分几何的方法,可以定义一套很简单的办法。这套办法在这里肯定写不清楚,所以我上传到我的资料去了。
最后说一下,为什么要学这个。