ccc-pytorch-感知机算法（3）

最新推荐文章于 2024-08-24 14:08:21 发布

扔出去的回旋镖

最新推荐文章于 2024-08-24 14:08:21 发布

阅读量351

点赞数

分类专栏： pytorch学习文章标签：算法 pytorch 机器学习

本文链接：https://blog.csdn.net/liubi32326/article/details/129219796

版权

pytorch学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章介绍了感知机的概念，从单一输出感知机开始，详细阐述了误差函数和反向传播的过程，接着扩展到处理多个输出的感知机，并同样解析了其误差和权重更新的计算。最后，文章讨论了多层感知机（MLP）的反向传播算法，展示了如何通过链式法则计算各层权重的梯度。

摘要由CSDN通过智能技术生成

文章目录

单一输出感知机

内容解释：

$w^1_{00}$ ：输入标号1连接标号0（第一层）
$x_0^0$ ：第0层的标号为0的值
$O_1^1$ :第一层的标号为0的输出值
t：真实值
$\sigma$ ：激活函数

公式推导：
$\begin{aligned} E=\frac{1}{2}(O_0^1-t)^\ \end{aligned}$
添加常数便于求导，不影响单调性
$\begin{aligned} \frac{\partial E}{\partial w_{j0}} &=(O_0-t)\frac{\partial O_0}{\partial w_{j0}}\\ &=(O_0-t)\frac{\partial \sigma(x_0)}{\partial w_{j0}}\\ &=(O_0-t) O_0(1- O_0)\frac{\partial x_0^1}{\partial w_{j0}} 注：[\sigma(x_0)=O_0]\\ &=(O_0-t) O_0(1- O_0)x_j^0 \end{aligned}$
简单实践代码：

x = torch.randn(1,10)
w = torch.randn(1,10,requires_grad=True)
o = torch.sigmoid(x@w.t())
loss = F.mse_loss(torch.ones(1,1),o)
loss.shape
loss.backward()
w.grad

多输出感知机

内容解释：
和单层的一摸一样，只是多了几个输出，注意下标即可
公式推导：
$\begin{aligned} E=\frac{1}{2}\sum(O_i^k-t_k)^\ \end{aligned}$
添加常数便于求导，不影响单调性
$\begin{aligned} \frac{\partial E}{\partial w_{jk}} &=(O_k-t_k)\frac{\partial O_k}{\partial w_{jk}}注：[下标对上才有值]\\ &=(O_k-t_k)\frac{\partial \sigma(x_k)}{\partial w_{jk}}\\ &=(O_k-t_k) O_k(1- O_k)\frac{\partial x_k^1}{\partial w_{jk}} \\ &=(O_k-t_k) O_k(1- O_k)x_j^1 \end{aligned}$
即只需要输出和对应输入即可计算

简单实践代码：

x = torch.randn(1,10)
w = torch.randn(2,10,requires_grad=True)
o = torch.sigmoid(x@w.t())
loss = F.mse_loss(torch.ones(1,2),o)
loss.shape
loss.backward()
w.grad

MLP反向传播

内容解释：
MLP即Multi-Layer Perceptron，多层感知机
公式推导：
$\begin{aligned} \frac{\partial E}{\partial W_{ij}} &=\frac{\partial }{\partial W_{ij}}\frac{1}{2}\sum_{k\in K}(O_k-t_k)^2\\ &=\sum_{k\in K}(O_k-t_k)\frac{\partial }{\partial W_{ij}}O_k\\ &=\sum_{k\in K}(O_k-t_k)\frac{\partial }{\partial W_{ij}}\sigma(x_k)\\ &=\sum_{k\in K}(O_k-t_k) O_k(1- O_k)\frac{\partial x_k}{\partial w_{ij}} \\ &=\sum_{k\in K}(O_k-t_k) O_k(1- O_k)\frac{\partial x_k}{\partial O_j}\cdot\frac{\partial O_j}{\partial w_{ij}}\\ &=\sum_{k\in K}(O_k-t_k) O_k(1- O_k)W_{jk}\frac{\partial O_j}{\partial w_{ij}}\\ &=O_j(1-O_j)\frac{\partial x_j}{\partial W_{ij}}\sum_{k\in K}(O_k-t_k) O_k(1- O_k)W_{jk}\\ &=O_j(1-O_j)O_i\sum_{k\in K}(O_k-t_k) O_k(1- O_k)W_{jk}\\ &注：[层数从左到右为 i ，j，k] \end{aligned}$
如果将仅与第k层相关的信息作为一个函数可以写作：
$\begin{aligned} \frac{\partial E}{\partial W_{ij}}=O_iO_j(1-O_j)\sum_{k\in K}\delta _kW_{jk} \end{aligned}$