PyTorch教程（十一）：多输出的感知机以及梯度

最新推荐文章于 2024-01-21 20:11:21 发布

vincent_hahaha

最新推荐文章于 2024-01-21 20:11:21 发布

阅读量455

点赞数

分类专栏：机器学习 pytorch教程

本文链接：https://blog.csdn.net/vincent_duan/article/details/113974739

版权

多层感知机梯度下降 PyTorch 激活函数反向传播

关键词由CSDN通过智能技术生成

机器学习同时被 2 个专栏收录

40 篇文章 16 订阅

订阅专栏

pytorch教程

21 篇文章 23 订阅

订阅专栏

上一节中介绍了单层感知机，感知机的输出节点只有一个，只有 $O_0$ 没有 $O_1$ 。对于单层感知机的梯度下降公式如下：
$\frac {\partial E}{\partial w_{j0}} = (O_0 -t)*O_0(1-O_0)x_j^0$
即对参数 $w_{j0}$ 的梯度。可以看出 $w_{j0}$ 的梯度跟这一层的输出权值以及 $x_{j0}$ 有关。

多层感知机模型

在这里插入图片描述
其中 $x_k^1$ 表示第一层感知机的第k号节点， $O_k^1$ 表示经过激活函数后的数值， $w_{jk}^1$ 表示上一层的第j个节点和对应这一层的第k个节点。

多层感知机梯度

$\frac {1}{2}\sum(O_i^1 - t_i)^2 \\ 当k=i时，才有意义，因此 \frac {\partial E}{\partial w_{jk}} = (O_k - t_k)\frac {\partial O_k}{\partial w_{jk}} \\ \frac {\partial E}{\partial w_{jk}} = (O_k - t_k)\frac {\partial \sigma(x_k)}{\partial w_{jk}} \\ \frac {\partial E}{\partial w_{jk}} =(O_k - t_k) \sigma (x_k)(1-\sigma x(k)) \frac {\partial x_k^1}{\partial w_{jk}} \\ \frac {\partial E}{\partial w_{jk}} =(O_k - t_k) O_k(1-O_k) x_j^0\\$

PyTorch实现

from torch.nn import functional as F

x = torch.randn(1,10)
w = torch.randn(2,10,requires_grad = True)
o = torch.sigmoid(x@w.t())
o.shape # torch.Size([1, 2])
loss = F.mse_loss(torch.ones(1,2),o) # tensor(0.1849, grad_fn=<MseLossBackward>)
loss.backward()
w.grad
# tensor([[ 0.1048,  0.0295,  0.0433,  0.0624,  0.0105, -0.0463,  0.0789, -0.0975,
#         -0.0250, -0.0553],
#        [ 0.1950,  0.0549,  0.0805,  0.1162,  0.0196, -0.0862,  0.1467, -0.1815,
#         -0.0464, -0.1029]])