【MindSpore易点通】调优精度之低阶API使用动态LossScale

背景信息

在混合精度中,使用float16类型来替代float32类型存储数据,从而达到减少内存和提高计算速度的效果。但是由于float16类型要比float32类型表示的范围小很多,所以当某些参数(比如说梯度)在训练过程中变得很小时,就会发生数据下溢的情况,进而影响网络精度。而loss scale正是为了解决float16类型数据下溢问题的,loss scale的主要思想是在计算loss时,将loss扩大一定的倍数,由于链式法则的存在,梯度也会相应扩大,然后在优化器更新权重时再缩小相应的倍数,从而避免了数据下溢的情况又不影响计算结果。

在MindSpore中,loss scale的使用方法又分动态loss scale和静态loss scale两种,二者具体区别详见静态LossScale和动态LossScale的区别。

在低阶API使用动态LossScale功能时,通常结合TrainOneStepWithLossScaleCell来实现。

1、示例代码段

**步骤:**在使用动态loss scale功能前,首先要定义一张网络、损失函数、优化器,然后将损失函数融入到神经网络中,再使用动态loss scale功能
 

from src.new import TrainOneStepWithLossScaleCell


# Define network
    net = resnet()

# Define the loss_function
    loss_function = nn.loss.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')

    # Define the optimizer
    opt = nn.SGD(net.trainable_params(), LR_ORI, MOMENTUM_ORI, WEIGHT_DECAY)

# Bind loss_function to net
    model_constructed = BuildTrainNetwork(net, loss_function, TRAIN_BATCH_SIZE, CLASS_NUM)

    # Define the Dynamic Loss scale update cell
    loss_scale_manager = nn.DynamicLossScaleUpdateCell(loss_scale_value=2**12, scale_factor=2, scale_window=1000)

# Define Network training with loss scaling
    model_constructed = TrainOneStepWithLossScaleCell(model_constructed, opt, scale_sense=loss_scale_manager)

    # Train
    train_net(model_constructed, net, loss_function, EPOCH_MAX, TRAIN_PATH, VAL_PATH, TRAIN_BATCH_SIZE, VAL_BATCH_SIZE, REPEAT_SIZE)

2、代码解析

loss_scale_manager = nn.DynamicLossScaleUpdateCell(loss_scale_value=2**12, scale_factor=2, scale_window=1000)

**功能:**定义一个动态loss scale的控制器。指定loss scale的初始值为loss_scale_value。当训练发生上溢出时,将执行loss_scale_value=loss_scale_value/scale_factor。如果连续scale_window个step没有发生上溢出,则执行loss_scale_value=loss_scale_value*scale_factor。

接口参数详解:

loss_scale_value :loss scale的初始值,float数据类型;

scale_factor:loss_scale的调整系数,int数据类型;

scale_window:如果连续scale_window个step没有发生溢出,则执行loss_scale_value=loss_scale_value*scale_factor,int数据类型 ;

model_constructed = TrainOneStepWithLossScaleCell(network=model_constructed, optimizer=opt, scale_sense=loss_scale_manager)

功能:

此接口封装了整网的训练步骤,它接受网络、优化器和loss scale控制器作为入参。

接口参数详解:

network:训练网络;

optimizer:优化器;

scale_sense:loss scale控制器;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MindSpore中,Transformer模型是基于自注意力机制的深度学习模型,在NLP领域被广泛应用。MindSpore提供了相关的API和方法来构建和训练Transformer模型。 首先,在MindSpore中,可以使用`EmbeddingLookup`类来定义词嵌入层,该层负责将输入的单词转换为向量表示。这个类在`transformer_model.py`文件中进行定义。 接下来,为了进行网络的反向传播和训练,可以使用MindSpore的高级接口`MindSpore.Model`来定义网络反向和进行训练。在`transformer_model.py`文件中,可以看到网络的反向定义以及使用`MindSpore.Model`进行训练的示例代码。首先,通过`TransformerTrainOneStepCell`将网络和损失函数组合在一起,然后使用该组合后的网络进行训练。 最后,通过调用`model.train`方法,可以使用定义好的模型、数据集和优化器进行训练。需要指定训练的轮数、数据集、回调函数等参数来完成训练过程。 综上所述,在MindSpore中,可以使用相关的API和方法来构建和训练Transformer模型。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【MindSpore易点通】Transformer的注意力机制](https://blog.csdn.net/Kenji_Shinji/article/details/127958722)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [基于MindSpore的Transformer网络实现](https://blog.csdn.net/Kenji_Shinji/article/details/127314332)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值