深度学习——感知机梯度求导

0iq2333

已于 2022-02-06 18:29:41 修改

阅读量1.2k

点赞数 1

分类专栏：从零开始学深度学习文章标签：深度学习神经网络人工智能

于 2022-02-06 18:29:31 首次发布

本文链接：https://blog.csdn.net/acm_durante/article/details/122799832

版权

从零开始学深度学习专栏收录该内容

18 篇文章 44 订阅

订阅专栏

一、感知机介绍

1、神经网络基础

多输出神经网络示意图
1. 上图每个圆圈都是一个神经元，每条线表示神经元之间的链接。而神经元可以被分为多层，层与层之间同样可以有神经元链接，而层内之间的神经元没有链接。
2. 最左边的层叫做输入层，负责接受输入数据；最右边的层叫做输出层，可以从这层获取神经网络输出数据。
3. 输入层和输出层之间的层叫做隐藏层

2、感知器——神经网络的组成单元

在这里插入图片描述

感知器的组成部分：
1. 输入权值：可以接受多个输入 $x_1,x_2,...,x_n|x_i ∈ R)$ ，每个输入上有一个权值 $w_i∈R$ ，此外还有一个偏向值 $b \in R$ ，即图中的 $w_0$ 。
2. 激活函数：感知器的激活函数有很多种，详情请看此篇博客
3. 输出：感知器的输出由如下公式计算 $y = f (w * x + b)$
感知器的功能
1. 可以拟合任何的线性函数，任何线性分类或线性回归问题都可以用感知器解决。
2. 实现二分类问题：0、1两大类，对应于单输出感知机
3. 实现多分类问题：输出结果是概率，对于多输出感知机

二、单一输出感知机

1、概括

感知机
1. 输入: $x$
2. 激活函数为： $o=\begin{cases} 1\,\,\,\,\,\, if\,\,\sum_{i=0}^n{w_ix_i>0}\\ 0\,\,\,\,\,\, otherwise\\ \end{cases}$
3. 输出：感知器的输出由如下公式计算 $y=\sum{x_i*w_i}+b$

2、求导步骤

在这里插入图片描述

符号说明
1. $O 为激活函数，上标表示第几层，下层表示第几个元素$
2. $w_{ij}:i$ 表示连接的是上一层第 $i$ 号节点， $j$ 表示连接的是下一次的 $j$ 号节点
3. $E$ 代表 $e r r o r 或 l o s s$
4. $\sigma$ 代表sigmoid函数
推导
1. $E=\frac{1}{2}(O_0^1-t)^2$
2. $\frac{\partial E}{\partial w_{j0}}=(O_0-t)\frac{\partial O_0}{\partial w_{j0}}$
3. $\frac{\partial E}{\partial w_{j0}}=(O_0-t)\frac{\partial \sigma \left( x_0 \right)}{\partial w_{j0}}$
4. $\frac{\partial E}{\partial w_{j0}}=(O_0-t)\frac{\partial \sigma \left( x_0 \right)}{\partial x_{0}^{1}}\frac{\partial x_{0}^{1}}{\partial w_{j0}}=(O_0-t)\sigma \left( x_0 \right) \left( 1-\sigma \left( x_0 \right) \right) \frac{\partial x_{0}^{1}}{\partial w_{j0}}$
5. $\frac{\partial E}{\partial w_{j0}}=(O_0-t)O_0\left( 1-O_0 \right) \frac{\partial x_{0}^{1}}{\partial w_{j0}}$
6. $\frac{\partial E}{\partial w_{j0}}=(O_0-t)O_0\left( 1-O_0 \right) x_{j}^{0}$

3、代码实现

# 单层感知机
# 输入数据
x = torch.randn(1,10)
w = torch.randn(1,10,requires_grad=True)
# [1,10]*[10,1]得到一维的数
o = torch.sigmoid(x@w.t())
# 得到loss，label和输出做均方差
loss = F.mse_loss(torch.ones(1,1),o)
# 得到梯度信息
loss.backward()

print("o.shape = ",o.shape)
print("loss.shape = ",loss.shape)
print(w.grad)

三、多输出感知机

1、概括

在这里插入图片描述

2、求导步骤

推导
1. $E=\frac{1}{2}(O_i^1-t)^2$
2. $\frac{\partial E}{\partial w_{jk}}=(O_k-t_k)\frac{\partial O_k}{\partial w_{jk}}$
3. $\frac{\partial E}{\partial w_{jk}}=(O_k-t_k)\frac{\partial \sigma \left( x_k \right)}{\partial w_{jk}}$
4. $\frac{\partial E}{\partial w_{jk}}=(O_k-t_k)\frac{\partial \sigma \left( x_k \right)}{\partial x_{k}^{1}}\frac{\partial x_{k}^{1}}{\partial w_{jk}}=(O_k-t_k)\sigma \left( x_k \right) \left( 1-\sigma \left( x_k \right) \right) \frac{\partial x_{k}^{1}}{\partial w_{jk}}$
5. $\frac{\partial E}{\partial w_{jk}}=(O_k-t_k)O_k\left( 1-O_k \right) \frac{\partial x_{k}^{1}}{\partial w_{jk}}$
6. $\frac{\partial E}{\partial w_{jk}}=(O_k-t_k)O_k\left( 1-O_k \right) x_{j}^{0}$

3、代码实现

import torch
from torch.nn import functional as F

x = torch.randn(1,10) # 输入数据
w = torch.randn(2,10,requires_grad=True) # 输入权值
o = torch.sigmoid(x@w.t()) #得到激活函数后的值
loss = F.mse_loss(torch.ones(1,2),o) # 得到均方误差
loss.backward() #得到梯度信息

print(w.grad)