pytorch入门_深度学习基础及原理

最新推荐文章于 2024-07-22 11:48:26 发布

多问为什么，坚持跑步

最新推荐文章于 2024-07-22 11:48:26 发布

阅读量249

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/baihehaitangyijiu/article/details/103961101

版权

1. 损失函数

这里有一个重点：因为PyTorch是使用mini-batch来进行计算的，所以损失函数的计算出来的结果已经对mini-batch取了平均

nn.L1Loss:输入x和目标y之间差的绝对值，要求 x 和 y 的维度要一样（可以是向量或者矩阵），得到的 loss 维度也是对应一样的

nn.NLLLoss:用于多分类的负对数似然损失函数

nn.MSELoss: 均方损失函数，输入x和目标y之间均方差，用的最多。

nn.CrossEntropyLoss:多分类用的交叉熵损失函数，LogSoftMax和NLLLoss集成到一个类中，会调用nn.NLLLoss函数

nn.BCELoss:计算 x 与 y 之间的二进制交叉熵。

2. 梯度下降

Mini-batch的梯度下降法

对整个训练集进行梯度下降法的时候，我们必须处理整个训练数据集，然后才能进行一步梯度下降，即每一步梯度下降法需要对整个训练集进行一次处理，如果训练数据集很大的时候处理速度会很慢，而且也不可能一次的载入到内存或者显存中，所以我们会把大数据集分成小数据集，一部分一部分的训练，这个训练子集即称为Mini-batch。

对于普通的梯度下降法，一个epoch只能进行一次梯度下降；而对于Mini-batch梯度下降法，一个epoch可以进行Mini-batch的个数次梯度下降。

torch.optim是一个实现了各种优化算法的库。大部分常用优化算法都有实现，我们直接调用即可

torch.optim.SGD

随机梯度下降算法，带有动量（momentum）的算法作为一个可选参数可以进行设置，样例如下：

#lr参数为学习率，对于SGD来说一般选择0.1 0.01.0.001，如何设置会在后面实战的章节中详细说明
##如果设置了momentum，就是带有动量的SGD，可以不设置
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)

torch.optim.RMSprop

除了以上的带有动量Momentum梯度下降法外，RMSprop（root mean square prop）也是一种可以加快梯度下降的算法，利用RMSprop算法，可以减小某些维度梯度更新波动较大的情况，使其梯度下降的速度变得更快

#基本不会使用到RMSprop所以这里只给一个实例
optimizer = torch.optim.RMSprop(model.parameters(), lr=0.01, alpha=0.99)

torch.optim.Adam

Adam 优化算法的基本思想就是将 Momentum 和 RMSprop 结合起来形成的一种适用于不同深度学习结构的优化算法

# 这里的lr，betas，还有eps都是用默认值即可，所以Adam是一个使用起来最简单的优化方法
optimizer = torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999), eps=1e-08)

3. 方差/偏差

高偏差（high bias）的情况，一般称为欠拟合（underfitting），即我们的模型并没有很好的去适配现有的数据，拟合度不够。

高方差（high variance）的情况一般称作过拟合（overfitting），即模型对于训练数据拟合度太高了，失去了泛化的能力。

欠拟合：

增加网络结构，如增加隐藏层数目；
训练更长时间；
寻找合适的网络架构，使用更大的NN结构；
过拟合：

使用更多的数据；
正则化（ regularization）；
寻找合适的网络结构；

4. 正则化

利用正则化来解决High variance 的问题，正则化是在 Cost function 中加入一项正则化项，惩罚模型的复杂度

L1正则化

损失函数基础上加上权重参数的绝对值

L2正则化

损失函数基础上加上权重参数的平方和

需要说明的是：l1 相比于 l2 会更容易获得稀疏解

注：本文来自https://github.com/zergtant/pytorch-handbook/blob/master/chapter2/2.2-deep-learning-basic-mathematics.ipynb

多问为什么，坚持跑步

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch入门_深度学习基础及原理

1. 损失函数这里有一个重点：因为PyTorch是使用mini-batch来进行计算的，所以损失函数的计算出来的结果已经对mini-batch取了平均nn.L1Loss:输入x和目标y之间差的绝对值，要求 x 和 y 的维度要一样（可以是向量或者矩阵），得到的 loss 维度也是对应一样的nn.NLLLoss:用于多分类的负对数似然损失函数nn.MSELoss: 均方损失函数，输入x和目...
复制链接

扫一扫