PyTorch入门实战教程笔记（十二）：梯度相关操作3

最新推荐文章于 2023-03-25 13:02:18 发布

Star·端木

最新推荐文章于 2023-03-25 13:02:18 发布

阅读量306

点赞数

分类专栏： PyTorch实战学习笔记文章标签：深度学习 pytorch 神经网络

本文链接：https://blog.csdn.net/Superstar02/article/details/104241294

版权

PyTorch实战学习笔记专栏收录该内容

25 篇文章 18 订阅

订阅专栏

PyTorch入门实战教程笔记（十二）：梯度相关操作3

感知机的梯度推导

单层感知机
y = Σx_iW_i + b，结合下图简化结构，我们讲一下命名规则。

我们把输入层即第0层编号为x⁰_0-n；上图横线部分为第一层，包含W¹_ij, 1代表第一层的参数W，i表示连接上一层的神经元的序号，j代表连接这一层的神经元的序号；激活函数用Sigmoid激活函数，用δ表示，经过激活函数的输出用O¹₀表示，代表第一层的输出，第0号节点。E代表error，t代表target。
详细求导过程如下图：

即最终结果为下式，也就是W_j0的梯度只与输出O₀， x⁰_j有关。

pytorch例子，定义一个输入x，其shape为[1, 10], 参数W，其shape为[1, 10], 然后通过x @ W.t(), 即[1, 10] @ [1,10]^T得 [1, 1]. 通过F.mse_loss(torch.ones(1,1), o) 来计算标签[1, 1]和输出[1, 1]之间的mse均方差。然后利用loss.backward()，即可计算出所有W_j0的梯度，然后利用W^’ = W - 0.001▽W来更新W，直到x*W接近真实值y，完成梯度更新。代码如下：
多层感知机
多层感知机的结构如下图：一共有N×M个连接

详细求导过程如下图（可以发现形式基本和单层感知机一样）：

pytorch例子，定义一个输入x，其shape为[1, 10], 参数W，其shape为[2, 10], 然后通过x @ W.t(), 即[1, 10] @ [2, 10]^T得 [1, 2]. 通过F.mse_loss(torch.ones(1,2), o) 来计算标签[1, 1]和输出[1, 1]之间的mse均方差。然后利用loss.backward()，即可计算出所有W_j,0-1的梯度，然后利用W^’ = W - 0.001▽W来更新W，直到xW接近真实值y，完成梯度更新。代码如下：

链式法则

通过链式法则，将最后一层的误差，一层一层的输出到中间层的权值上面去，从而得到中间层的一个梯度信息，来更新权值，达到最优化的效果。表达式及运算举例如下图;
在这里插入图片描述
现在我们拿一个两层的神经元来举例，输入x，中间层为O¹,输出层为O²,误差E对W²的偏导直接能求（就是单层感知机），误差E对W¹求解需要通过链式法则，具体如下式，这样E对O²_k的偏导，O²_k对O¹_k的偏导，O¹_k对
输入x的偏导，都比较好求，进而求得误差E对W¹的梯度。
在这里插入图片描述
pythorch代码实现，y1 = xw1 + b1, y2 = xw2 + b2, dy2_dy1为y2对y1的求导，dy1_dw1为y1对w1的求导，dy2_dw1为y2对w1的求导，可以验证链式法则，dy2_dy1*dy1_dw1 = dy2_dw1是成立的。注意到，pytorch一个语句即可实现对所有w的自动求导，大大减少了人为的运算和代码的繁琐度。
在这里插入图片描述