5 PyTorch损失优化
5.1 权值初始化
-
梯度消失与梯度爆炸
消失原因:深层网络、不合适的损失函数
爆炸原因:权值初始化太大
解决方法
:梯度剪切、权值正则化、激活函数改进、使用BN(Batch Normalization)、ResNet等 -
Xavier初始化
方差一致性
:保持网络层的输出数据尺度维持在恰当范围,通常方差为1激活函数:饱和函数,如Sigmoid、Tanh
-
Kaiming初始化
方差一致性
:保持网络层的输出数据尺度维持在恰当范围,通常方差为1激活函数:ReLU及其变种
-
十种初始化方法
方差一致性
:保持网络层的输出数据尺度维持在恰当范围,通常方差为1 -
nn.init.calculate_gain()
功能:计算激活函数的方差变化尺度参数说明:
- nonlinearity:激活函数名
- param:激活函数的参数,如LeakyReLU的negative_slope
5.2 损失函数
损失函数
:衡量模型输出与真实标签的差异
交叉熵=相对熵+信息熵
交叉熵: H ( P , Q ) = − ∑ i = 1 N P ( x i ) log Q ( x i ) H\left( {P,Q} \right) = - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log Q\left( {{x_i}} \right) H(P,Q)=−∑i=1NP(xi)logQ(xi)
自信息: I ( x ) = − log [ p ( x ) ] I\left( x \right)=-\log \left[ {p\left( x \right)} \right] I(x)=−log[p(x)]
(信息)熵: H ( P ) = E x ∼ P [ I ( x ) ] = − ∑ i = 1 N P ( x i ) log P ( x i ) H\left( P \right) = {E_{x \sim P}}\left[ {I\left( x \right)} \right] = - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log P\left( {{x_i}} \right) H(P)=Ex∼P[I(x)]=−∑i=1NP(xi)logP(xi)
相对熵: D K L ( P , Q ) = E x ∼ P [ log P ( x ) Q ( x ) ] = E x ∼ P [ log P ( x ) − log Q ( x ) ] = ∑ i = 1 N P ( x i ) [ log P ( x i ) − log Q ( x i ) ] = ∑ i = 1 N P ( x i ) log P ( x i ) − ∑ i = 1 N P ( x i ) log Q ( x i ) = H ( P , Q ) − H ( P ) {D_{KL}}\left( {P,Q} \right) = {E_{x \sim P}}\left[ {\log \frac{{P\left( x \right)}}{{Q\left( x \right)}}} \right] = {E_{x \sim P}}\left[ {\log P\left( x \right) - \log Q\left( x \right)} \right] = \sum\limits_{i = 1}^N {P\left( {{x_i}} \right)} \left[ {\log P\left( {{x_i}} \right) - \log Q\left( {{x_i}} \right)} \right] = \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log P\left( {{x_i}} \right) - \sum\nolimits_{i = 1}^N {P\left( {{x_i}} \right)} \log Q\left( {{x_i}} \right) = H\left( {P,Q} \right) - H\left( P \right) DKL(P,Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)]=i=1∑NP(xi)[logP(xi)−logQ(xi)]=∑i=1NP(xi)logP(xi)−∑i=1NP(xi)logQ(xi)=H(P,Q)−H(P)
-
nn.CrossEntropyLoss()
功能:nn.LogSoftmax()与nn.NLLLoss()结合,进行交叉熵计算参数说明:
- weight:各类别的loss设置权值
- ignore_index:忽略某个类别
- reduction:计算模式,可为none/sum/mean
- none:逐个元素计算
- sum:所有元素求和,返回标量
- mean:默认加权平均(分母为样本所占权值的总份数),返回标量
-
nn.NLLLoss()
功能:实现负对数似然函数中的负号功能参数说明:
- weight:各类别的loss设置权值
- ignore_index:忽略某个类别
- reduction:计算模式,可为none/sum/mean
- none:逐个元素计算
- sum:所有元素求和,返回标量
- mean:默认加权平均(分母为样本所占权值的总份数),返回标量
-
nn.BCELoss()
功能:二分类交叉熵注意事项:输入值取值在[0,1]
参数说明:
- weight:各类别的loss设置权值
- ignore_index:忽略某个类别
- reduction:计算模式,可为none/sum/mean
- none:逐个元素计算
- sum:所有元素求和,返回标量
- mean:默认加权平均(分母为样本所占权值的总份数),返回标量
-
nn.BCEWithLogitsLoss()
功能:结合Sigmoid与二分类交叉熵注意事项:网络最后层不能加sigmoid函数
参数说明:
- weight:各类别的loss设置权值
- ignore_index:忽略某个类别
- reduction:计算模式,可为none/sum/mean
- none:逐个元素计算
- sum:所有元素求和,返回标量
- mean:默认加权平均(分母为样本所占权值的总份数),返回标量
- pos_weight:正样本的权值
5.3 优化器Optimizer
PyTorch的
优化器
:管理并更新模型中可学习参数(权值和偏置)的值,使得模型输出更接近真实标签
- 管理:优化器管理模型中可学习参数
- 更新:梯度下降方法
导数:函数在指定坐标轴上的变化率
方向导数:指定方向上的变化率
梯度
:一个向量,方向为方向导数取得最大值的方向
-
Optimizer类
基本属性:- defaults:优化器超参数,如学习率、momentum值等
- state:参数的缓存,如momentum的缓存等
- param_groups:管理的参数组
- _step_count:记录更新次数,学习率调整中使用
主要方法:
- zero_grad():清空所管理参数的梯度(梯度自动清零)【
PyTorch特性:张量梯度不自动清零
】 - step():执行一步更新,更新模型中可学习参数
- add_param_group():添加参数组
- state_dict():获取优化器当前状态信息字典
- load_state_dict():加载状态信息字典
-
学习率
学习率(learning rate)控制更新的步伐,注意:学习率不宜设置过大,也不宜设置过小
-
Momentum(动量、冲量)
基本思想:结合当前梯度与上一次的更新信息,用于当前更新
公式(指数加权平均): v t = β ∗ v t − 1 + ( 1 − β ) ∗ θ t {v_t} = \beta * {v_{t - 1}} + \left( {1 - \beta } \right) * {\theta _t} vt=β∗vt−1+(1−β)∗θt
-
SGD+Momentum
-
optim.SGD()
功能:随机梯度下降法参数说明:
- params:管理的参数组
- lr:初始学习率
- momentum:动量系数(beta),即SGD+Momentum
- weight_decay:L2正则化系数
- nesterov:是否采用NAG
-
10种优化器