pytorch教程龙曲良26-30

最新推荐文章于 2023-04-30 14:19:10 发布

sueong

最新推荐文章于 2023-04-30 14:19:10 发布

阅读量218

点赞数

分类专栏： pytorch 文章标签：深度学习神经网络 python pytorch

本文链接：https://blog.csdn.net/sueong/article/details/116740948

版权

pytorch 专栏收录该内容

23 篇文章 10 订阅

订阅专栏

26什么是梯度1

导数（在给定方向的变化量）和偏微分（在给定的自变量上的变化量）都是标量,只有大小没有方向
梯度就是所有偏微分的向量，有方向有大小
在这里插入图片描述
函数梯度是一个向量，向量方向表示这个函数在当前点的一个增长方向，向量的模/长度表示增长速率

这里的a是lr，这里初始化（0,0）刚好取到极小值

当lr太大的话会更新太快跳到箭头所指的地方，显然不是我们想要的情况
在这里插入图片描述

在这里插入图片描述

27什么是梯度2

总是有z1>z2，就是凸函数（碗一样），可以找到全局最优解，但是这种情况在现实中不常见
在这里插入图片描述
存在多个局部最小值

resnet56
网络很深可能平面会很粗糙陷入局部最小值，resnet56加了shortcut（走捷径）使得平面变得光滑，这样可以找到全局最小值

陷入鞍点
不是最大值也不是最小值，或者在x维度取局部最小值，在y维度上取局部最大值，比搜索到局部最小值更可怕，可能就陷在鞍点在这里插入图片描述
Optimizer Performance哪些因素会影响搜索全局最小值的过程
▪ initialization status
▪ learning rate
▪ momentum#动量怎么逃离局部最小值
▪ etc.

initialization status
图一初始状态从左边开始，找到局部最小值；
初始状态从右边开始，找到全局最小值，而且二者搜索的步数也不同
初始化可以按照主流的初始化方法，何恺明初始方法

在这里插入图片描述

learning rate
lr太大，即步长太大可能会直接跨过最小值跨到另一边去，这样可能不收敛，所以lr要设置小一点，0.01,0.001，如果收敛可以大一点这样收敛速度快一点。lr不仅影响速度还影响精度，lr过大可能会使得在最小值附近震荡，不能达到最小值，所以应该设置再小一点
在这里插入图片描述

momentum
逃出局部最小值

可能会在一个小坑里徘徊但是如果惯性够大就可以冲出去，到达更小的坑去
在这里插入图片描述

28常见函数的梯度

在这里插入图片描述

单层感知机

29激活函数与loss的梯度1

问题：单层感知机激活函数不可导
在这里插入图片描述
sigmoid/logistic

sigmoid函数的求导，可以求出一个其对x的导数，且其连续光滑，把负无穷到正无穷的值压缩在0-1之间，如概率和RGB像素点。问题是：趋向正无穷，导数接近于0，loss的值长时间得不到更新，梯度离散。
在这里插入图片描述

在这里插入图片描述

torch.nn.function as F

在这里插入图片描述
Tanh[-1,1]

在这里插入图片描述
Relu
非常适合做deep learning，所以都优先使用relu函数
因为x>0 梯度是1

保持梯度不变，减少出现梯度离散或梯度爆炸的情况
在这里插入图片描述

30激活函数与loss的梯度2

Typical Loss
▪ Mean Squared Error

▪ Cross Entropy Loss
▪ binary
▪ multi-class
▪ +softmax
▪ Leave it to Logistic Regression Part
在这里插入图片描述
如果使用torch.norm的函数要要这样使用（因为其默认是L2-norm，有开方），要加一个平方：torch.norm(y-pred,2).pow(2)

w初始化为一个长度为1 ，维度为1，值为2的一个tensor

 import torch
import torch.nn.functional as F
x=torch.ones(1)#标量
#w=torch.full([1],2)#长度为1且维度为1的张量 这样写默认w不需要求梯度
w=torch.tensor([2.0],requires_grad=True)
mse=F.mse_loss(torch.ones(1),x*w)#pred初始化为1
#loss=(pred-y)**2对这个函数的投递求导， 即2（pred-y）*loss对w的求导，即2（pred-y）x（-1）
#x=1 w=2，所以求导结果2(1-1*2)*1*(-1)=2
b=torch.autograd.grad(mse,[w])
print(b)#(tensor([2.]),)

backward会记录这个图的所有路径，在最后结点调用backward会自动的从后往前传播，完成这条路上所有需要梯度的计算，会把这些梯度信息附加每个tensor的成员.grad上如w.grad和b.grad

注意要区分w.norm()还是w.grad.norm() 在这里插入图片描述
torch.autograd.grad()返回的是各个w的梯度的列表
loss.backward() 可是直接指定wi.grad

在这里插入图片描述

sueong

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
pytorch教程龙曲良26-30

26什么是梯度1导数（在给定方向的变化量）和偏微分（在给定的自变量上的变化量）都是标量,只有大小没有方向梯度就是所有偏微分的向量，有方向有大小函数梯度是一个向量，向量方向表示这个函数在当前点的一个增长方向，向量的模/长度表示增长速率这里的a是lr，这里初始化（0,0）刚好取到极小值当lr太大的话会更新太快跳到箭头所指的地方，显然不是我们想要的情况27什么是梯度2总是有z1>z2，就是凸函数（碗一样），可以找到全局最优解，但是这种情况在现实中不常见存在多个局部最小值res
复制链接

扫一扫

专栏目录