PyTorch学习笔记之多层感知机

稀里糊涂的赢

已于 2023-11-26 10:09:42 修改

阅读量1.7k

点赞数

分类专栏： PyTorch深度学习笔记文章标签：深度学习神经网络 pytorch

于 2022-04-03 11:31:02 首次发布

本文链接：https://blog.csdn.net/qq_43552324/article/details/123781249

版权

PyTorch深度学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

PyTorch学习笔记之多层感知机

多层感知机也叫人工神经网络，除了输入输出层，它中间可以有多个隐含层。为实现多层感知机，先从梯度的知识开始了解。

什么是梯度

导数、偏微分均为标量，而梯度是向量。梯度的公式如下：
$\nabla{f} = (\frac{\partial f}{\partial x_1};\frac{\partial f}{\partial x_2};\cdots;\frac{\partial f}{\partial x_n})$

常采用梯度下降法来求解函数最优值，即搜索全局最优解，迭代公式如下：
$\theta_{t+1} = \theta_t-\alpha_t \nabla{f(\theta_t)}$

对于凸函数，存在全局最优解，可利用梯度下降法求解得到。
但是当利用梯度下降法求解某函数的最优值时，可能会求得的解为鞍点。鞍点即在某个纬度上取到了局部最小值，而在另一个纬度上取到局部最大值。
影响梯度下降法求解全局最优解的因素有初始解以及学习率，初始解选择的不恰当，学习率选择的不合适，会使得全局最优解的搜索陷入局部最小值陷阱，因此需要采取合适的方法，以逃出局部最小值。

常见函数的梯度

在这里插入图片描述

激活函数

在这里插入图片描述

Loss及其梯度

1.求导的两种方法
MSE(均方差)： $\sum [y-(xw+b)]^2$
(1) 利用autograd.grad()函数进行求导（对指定的参数进行求导）
代码例子如下：

x = torch.ones(1)
w = torch.full([1],2.0)
w.requires_grad_()
mse = F.mse_loss(torch.ones(1),x*w)
print(torch.autograd.grad(mse,[w]))

求解的结果为：

（tensor([2.],)）

(2) 利用backward()函数求导（对所有参数进行一次性求导）
代码例子如下：

x = torch.ones(1)
w = torch.full([1],2.0)
w.requires_grad_()
mse = F.mse_loss(torch.ones(1),x*w)
mse.backward()
print(w.grad)

求解的结果为：

（tensor([2.],)）

2.Softmax函数
经softmax函数处理过后的值，概率区间为[0,1]，且所有值的概率值累加求和为1。
Softmax函数的换算公式为：

$S(y_i)=\frac{e^{y_i}} { \sum_j e^{y_j}}$

Softmax函数的梯度计算如下：
在这里插入图片描述

单层输出感知机梯度推导

在这里插入图片描述

多层输出感知机

在这里插入图片描述

MLP反向传播

在这里插入图片描述

稀里糊涂的赢

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
PyTorch学习笔记之多层感知机

导数、偏微分均为标量，而梯度是向量。∇f∂f∂x1;∂f∂x2;⋯;∇f∂x1∂f;∂x2∂f;⋯;∂xn∂fθt1θt−αt∇fθtθt1θt−αt∇fθt对于凸函数，存在全局最优解，可利用梯度下降法求解得到。但是当利用梯度下降法求解某函数的最优值时，可能会求得的解为鞍点。
复制链接

扫一扫