【PyTorch】05损失优化

5 PyTorch损失优化

5.1 权值初始化

【PyTorch】4.1 权值初始化

  • 梯度消失与梯度爆炸

    消失原因:深层网络、不合适的损失函数

    爆炸原因:权值初始化太大

    解决方法:梯度剪切、权值正则化、激活函数改进、使用BN(Batch Normalization)、ResNet等

    image-20220517204004828

  • Xavier初始化

    方差一致性:保持网络层的输出数据尺度维持在恰当范围,通常方差为1

    激活函数:饱和函数,如Sigmoid、Tanh

  • Kaiming初始化

    方差一致性:保持网络层的输出数据尺度维持在恰当范围,通常方差为1

    激活函数:ReLU及其变种

  • 十种初始化方法

    方差一致性:保持网络层的输出数据尺度维持在恰当范围,通常方差为1

    在这里插入图片描述

  • nn.init.calculate_gain()
    在这里插入图片描述
    功能:计算激活函数的方差变化尺度

    参数说明:

    • nonlinearity:激活函数名
    • param:激活函数的参数,如LeakyReLU的negative_slope

5.2 损失函数

损失函数:衡量模型输出与真实标签的差异

【PyTorch】4.2 损失函数(一)

【PyTorch】4.2 损失函数(二)

交叉熵=相对熵+信息熵

交叉熵: H ( P , Q ) = − ∑ i = 1 N P ( x i ) log ⁡ Q ( x i ) H\left( {P,Q} \right) = - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log Q\left( {{x_i}} \right) H(P,Q)=i=1NP(xi)logQ(xi)

自信息: I ( x ) = − log ⁡ [ p ( x ) ] I\left( x \right)=-\log \left[ {p\left( x \right)} \right] I(x)=log[p(x)]

(信息)熵: H ( P ) = E x ∼ P [ I ( x ) ] = − ∑ i = 1 N P ( x i ) log ⁡ P ( x i ) H\left( P \right) = {E_{x \sim P}}\left[ {I\left( x \right)} \right] = - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log P\left( {{x_i}} \right) H(P)=ExP[I(x)]=i=1NP(xi)logP(xi)

相对熵: D K L ( P , Q ) = E x ∼ P [ log ⁡ P ( x ) Q ( x ) ] = E x ∼ P [ log ⁡ P ( x ) − log ⁡ Q ( x ) ] = ∑ i = 1 N P ( x i ) [ log ⁡ P ( x i ) − log ⁡ Q ( x i ) ] = ∑ i = 1 N P ( x i ) log ⁡ P ( x i ) − ∑ i = 1 N P ( x i ) log ⁡ Q ( x i ) = H ( P , Q ) − H ( P ) {D_{KL}}\left( {P,Q} \right) = {E_{x \sim P}}\left[ {\log \frac{{P\left( x \right)}}{{Q\left( x \right)}}} \right] = {E_{x \sim P}}\left[ {\log P\left( x \right) - \log Q\left( x \right)} \right] = \sum\limits_{i = 1}^N {P\left( {{x_i}} \right)} \left[ {\log P\left( {{x_i}} \right) - \log Q\left( {{x_i}} \right)} \right] = \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log P\left( {{x_i}} \right) - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log Q\left( {{x_i}} \right) = H\left( {P,Q} \right) - H\left( P \right) DKL(P,Q)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]=i=1NP(xi)[logP(xi)logQ(xi)]=i=1NP(xi)logP(xi)i=1NP(xi)logQ(xi)=H(P,Q)H(P)

  • nn.CrossEntropyLoss()
    image-20220517215011056
    功能:nn.LogSoftmax()与nn.NLLLoss()结合,进行交叉熵计算

    参数说明:

    • weight:各类别的loss设置权值
    • ignore_index:忽略某个类别
    • reduction:计算模式,可为none/sum/mean
      • none:逐个元素计算
      • sum:所有元素求和,返回标量
      • mean:默认加权平均(分母为样本所占权值的总份数),返回标量
  • nn.NLLLoss()
    在这里插入图片描述
    功能:实现负对数似然函数中的负号功能

    参数说明:

    • weight:各类别的loss设置权值
    • ignore_index:忽略某个类别
    • reduction:计算模式,可为none/sum/mean
      • none:逐个元素计算
      • sum:所有元素求和,返回标量
      • mean:默认加权平均(分母为样本所占权值的总份数),返回标量
  • nn.BCELoss()
    在这里插入图片描述
    功能:二分类交叉熵

    注意事项:输入值取值在[0,1]

    参数说明:

    • weight:各类别的loss设置权值
    • ignore_index:忽略某个类别
    • reduction:计算模式,可为none/sum/mean
      • none:逐个元素计算
      • sum:所有元素求和,返回标量
      • mean:默认加权平均(分母为样本所占权值的总份数),返回标量
  • nn.BCEWithLogitsLoss()
    image-20220518082941045
    功能:结合Sigmoid与二分类交叉熵

    注意事项:网络最后层不能加sigmoid函数

    参数说明:

    • weight:各类别的loss设置权值
    • ignore_index:忽略某个类别
    • reduction:计算模式,可为none/sum/mean
      • none:逐个元素计算
      • sum:所有元素求和,返回标量
      • mean:默认加权平均(分母为样本所占权值的总份数),返回标量
    • pos_weight:正样本的权值

5.3 优化器Optimizer

PyTorch的优化器管理更新模型中可学习参数(权值和偏置)的值,使得模型输出更接近真实标签

  • 管理:优化器管理模型中可学习参数
  • 更新:梯度下降方法

【PyTorch】4.3 优化器Optimizer(一)

【PyTorch】4.3 优化器Optimizer(二)

导数:函数在指定坐标轴上的变化率

方向导数:指定方向上的变化率

梯度:一个向量,方向为方向导数取得最大值的方向

  • Optimizer类
    在这里插入图片描述
    基本属性:

    • defaults:优化器超参数,如学习率、momentum值等
    • state:参数的缓存,如momentum的缓存等
    • param_groups:管理的参数组
    • _step_count:记录更新次数,学习率调整中使用

    image-20220518092955079
    在这里插入图片描述
    主要方法:

    • zero_grad():清空所管理参数的梯度(梯度自动清零)【PyTorch特性:张量梯度不自动清零
    • step():执行一步更新,更新模型中可学习参数
    • add_param_group():添加参数组
    • state_dict():获取优化器当前状态信息字典
    • load_state_dict():加载状态信息字典
  • 学习率

    学习率(learning rate)控制更新的步伐,注意:学习率不宜设置过大,也不宜设置过小

  • Momentum(动量、冲量)

    基本思想:结合当前梯度与上一次的更新信息,用于当前更新

    公式(指数加权平均) v t = β ∗ v t − 1 + ( 1 − β ) ∗ θ t {v_t} = \beta * {v_{t - 1}} + \left( {1 - \beta } \right) * {\theta _t} vt=βvt1+(1β)θt

  • SGD+Momentum
    在这里插入图片描述

  • optim.SGD()
    image-20220518104340897
    功能:随机梯度下降法

    参数说明:

    • params:管理的参数组
    • lr:初始学习率
    • momentum:动量系数(beta),即SGD+Momentum
    • weight_decay:L2正则化系数
    • nesterov:是否采用NAG
  • 10种优化器
    在这里插入图片描述 在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值