【PyTorch】05损失优化

最新推荐文章于 2023-04-07 14:24:44 发布

执志@☆飞扬か

最新推荐文章于 2023-04-07 14:24:44 发布

阅读量358

点赞数

分类专栏： PyTorch学习笔记文章标签： pytorch 深度学习算法

本文链接：https://blog.csdn.net/qq_41566530/article/details/124901400

版权

PyTorch学习笔记专栏收录该内容

9 篇文章 3 订阅

订阅专栏

5 PyTorch损失优化

5.1 权值初始化

【PyTorch】4.1 权值初始化

梯度消失与梯度爆炸

消失原因：深层网络、不合适的损失函数

爆炸原因：权值初始化太大

解决方法：梯度剪切、权值正则化、激活函数改进、使用BN(Batch Normalization)、ResNet等
Xavier初始化

方差一致性：保持网络层的输出数据尺度维持在恰当范围，通常方差为1

激活函数：饱和函数，如Sigmoid、Tanh
Kaiming初始化

方差一致性：保持网络层的输出数据尺度维持在恰当范围，通常方差为1

激活函数：ReLU及其变种
十种初始化方法

方差一致性：保持网络层的输出数据尺度维持在恰当范围，通常方差为1
nn.init.calculate_gain()

功能：计算激活函数的方差变化尺度

参数说明：
- nonlinearity：激活函数名
- param：激活函数的参数，如LeakyReLU的negative_slope

5.2 损失函数

损失函数：衡量模型输出与真实标签的差异

【PyTorch】4.2 损失函数（一）

【PyTorch】4.2 损失函数（二）

交叉熵=相对熵+信息熵

交叉熵： $H\left( {P,Q} \right) = - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log Q\left( {{x_i}} \right)$

自信息： $I\left( x \right)=-\log \left[ {p\left( x \right)} \right]$

(信息)熵： $H\left( P \right) = {E_{x \sim P}}\left[ {I\left( x \right)} \right] = - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log P\left( {{x_i}} \right)$

相对熵： ${D_{KL}}\left( {P,Q} \right) = {E_{x \sim P}}\left[ {\log \frac{{P\left( x \right)}}{{Q\left( x \right)}}} \right] = {E_{x \sim P}}\left[ {\log P\left( x \right) - \log Q\left( x \right)} \right] = \sum\limits_{i = 1}^N {P\left( {{x_i}} \right)} \left[ {\log P\left( {{x_i}} \right) - \log Q\left( {{x_i}} \right)} \right] = \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log P\left( {{x_i}} \right) - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log Q\left( {{x_i}} \right) = H\left( {P,Q} \right) - H\left( P \right)$

nn.CrossEntropyLoss()

功能：nn.LogSoftmax()与nn.NLLLoss()结合，进行交叉熵计算

参数说明：
- weight：各类别的loss设置权值
- ignore_index：忽略某个类别
- reduction：计算模式，可为none/sum/mean
  - none：逐个元素计算
  - sum：所有元素求和，返回标量
  - mean：默认加权平均(分母为样本所占权值的总份数)，返回标量
nn.NLLLoss()

功能：实现负对数似然函数中的负号功能

参数说明：
- weight：各类别的loss设置权值
- ignore_index：忽略某个类别
- reduction：计算模式，可为none/sum/mean
  - none：逐个元素计算
  - sum：所有元素求和，返回标量
  - mean：默认加权平均(分母为样本所占权值的总份数)，返回标量
nn.BCELoss()

功能：二分类交叉熵

注意事项：输入值取值在[0,1]

参数说明：
- weight：各类别的loss设置权值
- ignore_index：忽略某个类别
- reduction：计算模式，可为none/sum/mean
  - none：逐个元素计算
  - sum：所有元素求和，返回标量
  - mean：默认加权平均(分母为样本所占权值的总份数)，返回标量
nn.BCEWithLogitsLoss()

功能：结合Sigmoid与二分类交叉熵

注意事项：网络最后层不能加sigmoid函数

参数说明：
- weight：各类别的loss设置权值
- ignore_index：忽略某个类别
- reduction：计算模式，可为none/sum/mean
  - none：逐个元素计算
  - sum：所有元素求和，返回标量
  - mean：默认加权平均(分母为样本所占权值的总份数)，返回标量
- pos_weight：正样本的权值

5.3 优化器Optimizer

PyTorch的优化器：管理并更新模型中可学习参数(权值和偏置)的值，使得模型输出更接近真实标签

管理：优化器管理模型中可学习参数
更新：梯度下降方法

【PyTorch】4.3 优化器Optimizer(一)

【PyTorch】4.3 优化器Optimizer(二)

导数：函数在指定坐标轴上的变化率

方向导数：指定方向上的变化率

梯度：一个向量，方向为方向导数取得最大值的方向

Optimizer类

基本属性：
- defaults：优化器超参数，如学习率、momentum值等
- state：参数的缓存，如momentum的缓存等
- param_groups：管理的参数组
- _step_count：记录更新次数，学习率调整中使用
主要方法：
- zero_grad()：清空所管理参数的梯度(梯度自动清零)【PyTorch特性：张量梯度不自动清零】
- step()：执行一步更新，更新模型中可学习参数
- add_param_group()：添加参数组
- state_dict()：获取优化器当前状态信息字典
- load_state_dict()：加载状态信息字典
学习率

学习率(learning rate)控制更新的步伐，注意：学习率不宜设置过大，也不宜设置过小
Momentum(动量、冲量)

基本思想：结合当前梯度与上一次的更新信息，用于当前更新

公式（指数加权平均）： ${v_t} = \beta * {v_{t - 1}} + \left( {1 - \beta } \right) * {\theta _t}$
SGD+Momentum
optim.SGD()

功能：随机梯度下降法

参数说明：
- params：管理的参数组
- lr：初始学习率
- momentum：动量系数(beta)，即SGD+Momentum
- weight_decay：L2正则化系数
- nesterov：是否采用NAG
10种优化器

执志@☆飞扬か

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【PyTorch】05损失优化

5 PyTorch损失优化5.1 权值初始化【PyTorch】4.1 权值初始化梯度消失与梯度爆炸消失原因：深层网络、不合适的损失函数爆炸原因：权值初始化太大解决方法：梯度剪切、权值正则化、激活函数改进、使用BN(Batch Normalization)、ResNet等Xavier初始化方差一致性：保持网络层的输出数据尺度维持在恰当范围，通常方差为1激活函数：饱和函数，如Sigmoid、TanhKaiming初始化方差一致性：保持网络层的输出数据尺度维持在恰
复制链接

扫一扫

专栏目录