【自学】深度学习入门 基于python的理论与实现 LESSON9 <误差反向传播法3>

目录

前言

一、Affine/Softmax层的实现

1. Affine层

2. Softmax-with-Loss层

总结


前言

今天学习softmax层的实现


一、Affine/Softmax层的实现

1. Affine层

见往期文章:

https://blog.csdn.net/mzy20010420/article/details/126693852https://blog.csdn.net/mzy20010420/article/details/126693852

2. Softmax-with-Loss层

softmax层的输出如图所示:

 神经网络中进行的处理有推理和学习两个阶段。推理通常不使用Softmax层,比如上图进行推理时,会将最后一个Affine层的输出作为识别结果。但是神经网络的学习阶段需要Softmax层。

下面实现Softmax层。由于这里也包含损失函数的交叉熵误差,因此称为SWL层,计算图如下图所示:

简易版如下图所示:

 分析:

(1)假设进行三分类。softmax层将输入(a1, a2, a3)正则化,输出(y1, y2, y3),交叉熵误差层接收 (y1, y2, y3)和监督标签(t1, t2, t3),从这些数据中输出损失L.

(2)神经网络学习的目的就是通过调整权重参数,使神经网络的输出y接近监督标签。因此必须将神经网络的输出与监督标签的误差高效地传递给前面的层,即上图所示y-t.

下面进行代码的实现:

import numpy as np

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None #损失
        self.y = None #softmax的输出
        self.t = None #监督数据
        
    
    def softmax(a):
        exp_a = np.exp(a)
        sum_a = np.sum(exp_a)
        soft = exp_a / sum_a
        
        return soft
    
    
    def cross_entropy_error(y, t):
        delta = 1e-7
        E = -np.sum(t * np.log(y + delta), axis = 1)
        
        return E
    

    def forward(self, x, t):
        self.t = t
        self.y = SoftmaxWithLoss.softmax(x)  
        self.loss = SoftmaxWithLoss.cross_entropy_error(self.y, self.t) 
        
        return self.loss
    
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx

分析:

(1)疑问:def backward(self, dout=1):这一句不理解,为什么要dout = 1

(2)batch_size = self.t.shape[0]:

shape的应用:

import numpy as np

k = np.matrix([[1, 2, 3, 4],
             [5, 6, 7, 8],
             [9, 10, 11, 12]])
print(np.shape(k))       # 输出(3,4)表示矩阵为3行4列
print(k.shape[0])        # shape[0]输出3,为矩阵的行数
print(k.shape[1])        # 同理shape[1]输出列数

结果:

(3, 4)
3
4

(3)类中函数的互相调取:

见往期文章

https://blog.csdn.net/mzy20010420/article/details/126728756icon-default.png?t=M7J4https://blog.csdn.net/mzy20010420/article/details/126728756(4)反向传播时,将要传播的值除以批的大小(batch_size)后,传递给前面的层的是单个数据的误差。


总结

(1)通过使用层进行模块化,神经网络中可以自由地组装层。

(2)通过比较数值微分和误差反向传播法的结果,可以确认误差反向传播法是否正确。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Rachel MuZy

你的鼓励是我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值