PyTorch教程（十）：单层感知机以及梯度更新

最新推荐文章于 2024-05-10 20:22:57 发布

vincent_hahaha

最新推荐文章于 2024-05-10 20:22:57 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习 pytorch教程

本文链接：https://blog.csdn.net/vincent_duan/article/details/113941103

版权

机器学习同时被 2 个专栏收录

40 篇文章 15 订阅

订阅专栏

pytorch教程

21 篇文章 23 订阅

订阅专栏

单层感知机模型

$\\ y = \sum x_i*w_i+ b$

单层感知机模型的每一个输入节点 $x_i$ 和对应的权重 $w_i$ 相乘累加后，与bias相加，便得到了预测值。
在这里插入图片描述
我们使用sigmoid函数作为激活函数，通常使用符号 $\sigma$ 表示。
对于最左边的输入层的上标，也就是 $x_n^0$ 中的0表示第0层，n表示第0层第n个元素节点。

从 $w$ 到 $\sigma$ 是1层， $w^1_{ij}$ 表示第1层,i表示连接的上一层 $x_i$ ，j表示本层的第j个节点。因为上图中只有一层，所以j=0 。 $x_0^1$ 中1表示第一层，0表示第一层的0号节点【这里讨论单层输出感知机，所以第一层只有一个节点】。 $x_0^1$ 经过激活函数之后，有一个输出值 $O_0^1$ ，其中1表示第一层，0表示第0号节点。

随后， $O_0^1$ 与target值计算： $Error（Loss）=\sum(O_0^1-target)^2$

梯度

Loss计算公式：
$\frac{1}{2}(O_0^1 - t)^2$
这里引入了一个额外的 $\frac{1}{2}$ 是为了与求导后的数2抵消掉。不会影响单调性的。
$\frac {\partial E}{\partial w_{j0}} =(O_0 - t)*\frac{O_0}{\partial w_{j0}} \\ \frac {\partial E}{\partial w_{j0}} = (O_0 - t)\frac{\sigma(x_0^1)}{\partial w_{j0}} \\ \frac {\partial E}{\partial w_{j0}} = (O_0 - t) \sigma(x_0)(1-\sigma(x_0))\frac{\partial x_0^1}{\partial w_{j0}}$
求导之前需要先向右计算一次所有的变量值，这就是向前传播
$\frac {\partial x_0}{\partial w_{j0}}=\frac {\partial \sum w_{j0}x_j^0}{\partial w_{j0}} = x_j^0$
因此上面的公式得到最终结果：
$\frac {\partial E}{\partial w_{j0}} =(O_0 - t))O_0(1-O_0)x_j^0$

方法实现

输入10个特征的x

x = torch.randn(1,10)
# tensor([[ 0.5817, -1.1089, -0.9756, -0.4556, -0.2144, -1.1662,  1.9232,  0.2331,
#         -1.2987, -0.4950]])
w = torch.randn(1,10,requires_grad = True)
# tensor([[-1.0490, -1.7553,  0.1665, -0.0458, -0.8664, -0.3328, -0.1398,  1.2416,
#          1.3097, -0.4996]], requires_grad=True)
o = torch.sigmoid(x@w.t())
# tensor([[0.5831]], grad_fn=<SigmoidBackward>)
loss = F.mse_loss(torch.ones(1,1),o)
# tensor(0.1738, grad_fn=<MseLossBackward>)
loss.backward()
w.grad
# tensor([[-0.1179,  0.2248,  0.1977,  0.0923,  0.0435,  0.2364, -0.3898, -0.0472,
#          0.2632,  0.1003]])

这样就得到了每一个 $w$ 的梯度，随后可以根据 $\nabla w$ 来更新参数了。

vincent_hahaha

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
PyTorch教程（十）：单层感知机以及梯度更新

单层感知机模型y=XW+by=∑xi∗wi+by = XW + b \\y = \sum x_i*w_i+ by=XW+by=∑xi∗wi+b单层感知机模型的每一个输入节点xix_ixi和对应的权重wiw_iwi相乘累加后，与bias相加，便得到了预测值。我们使用sigmoid函数作为激活函数，通常使用符号σ\sigmaσ表示。对于最左边的输入层的上标，也就是xn0x_n^0xn0中的0表示第0层，n表示第0层第n个元素节点。从www到σ\sigmaσ是1层，wij1w^1_{i
复制链接

扫一扫