【深度学习】softmax 函数求导

最新推荐文章于 2024-03-31 15:41:05 发布

梅津太郎

最新推荐文章于 2024-03-31 15:41:05 发布

阅读量385

点赞数

分类专栏：动手学深度学习 python

本文链接：https://blog.csdn.net/gaocui883/article/details/116028393

版权

动手学深度学习同时被 2 个专栏收录

37 篇文章 2 订阅

订阅专栏

python

30 篇文章 0 订阅

订阅专栏

在这里插入图片描述

 def _bwd(self,dLdy,X):
        dX = []
        for dy,x in zip(dLdy, X):
            dxi = []
            for dyi, xi in zip(*np.atleast_2d(dy, x)): # 用xi 计算yi.
                # 梯度：当i=j : yj - yj yj， 当i \= j : -yj yj
                # dyi,xi  都是矩阵，1 n_out, 1 n_in.
                yi = self._fwd(xi.reshape(1, -1)).reshape(-1, 1)  # 列向量的样子，二维的。 shape : n_out , 1
                dyidxi = np.diagflat(yi) - yi @ yi.T  # 只有对角线是相等的。 nout,1, 1 out -> n_out,n_out
                # np.diagflat， 将矩阵展平，填充对角 -> n_out,n_out 对角阵。
                # dyidxi -> n_out,n_out.
                dxi.append(dyi @ dyidxi) # dyi -> 1 n_out.  ->  1 , n_out. y1/xi,y2/xi,y3/xi....
            dX.append(dxi) # dX, 最后是n_sample , n_out.
        return np.array(dX).reshape(*X.shape)  # 但是X.shape : n_sample, n_in ， 因为是softmax,所以n_in == n_out.
    # 这样就得到jacobin矩阵。

其中的

dL/dy = (dL/dy1,dL/dy2,....)^T
shape: samples, n_out.
X shape : samples, n_in.

其中的：

np.atleast_2d(dy, x)

得到的结果是一个list，list中是将dy，x扩展成二维的矩阵。

Out[86]: [array([['a', 'b', 'c', 'd', 'e']], dtype='<U1'), array([[1, 2, 3, 4, 5]])]

然后经过：

for dyi, xi in zip(*np.atleast_2d(dy, x)):

得到的dyi,xi 分别就是(1，n_out), (1, n_in)的两个二维矩阵，这个遍历的次数就只有一次，作用只是用来进行维度扩展。

梅津太郎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录