反向传播计算前级delta时，后级delta去掉常数偏置参数delta0的原因

最新推荐文章于 2022-07-04 18:39:37 发布

梓沂

最新推荐文章于 2022-07-04 18:39:37 发布

阅读量325

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_27361945/article/details/110174082

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

学习吴恩达机器学习时，课程和练习题中讲过，计算时需要去掉 $\delta_{0}^{(2)}$

代码中也做了类似处理：

    for t in range(m):
        a1t = a1[t,:]  # (1, 401)
        z2t = z2[t,:]  # (1, 25)
        a2t = a2[t,:]  # (1, 26)
        ht = h[t,:]  # (1, 10)
        yt = y[t,:]  # (1, 10)
        
        d3t = ht - yt  # (1, 10)
        
        z2t = np.insert(z2t, 0, values=np.ones(1))  # (1, 26)
        d2t = np.multiply((theta2.T * d3t.T).T, sigmoid_gradient(z2t))  # (1, 26)
        
        delta1 = delta1 + (d2t[:,1:]).T * a1t
        delta2 = delta2 + d3t.T * a2t

上述代码倒数第二行的d2t[:,1:]去掉 $\delta_{0}^{(2)}$ 。

这里会产生的疑惑是，去掉 $\delta_{0}^{(2)}$ 是不是就不计算误差对每层的常数偏置的影响了。实际上不是这样的，每层的常数偏置都得系数都需要计算其偏导数，

比如我们在计算输入层的 $X_{0}$ 的偏置时，X矩阵的（行，列）是（X样本数，输入项数+1），误差矩阵是下一级的 $\delta$ 矩阵去掉 $\delta_{0}^{(2)}$ ，因为 $\delta_{0}^{(2)}$ 关联的 $a^{(2)}_{0}$ 是第二层的偏置， $a^{(2)}_{0}$ 与第一层的输入X之间没有连线，所以不参与输入层系数的误差（偏导数）的运算，在计算输入层系数偏导数theta1时不参与运算，但它是theta2的一部分，所以说它对theta2来说是有用的。