分层学习率设置和学习率衰减(pytorch)

本文介绍了在PyTorch中如何进行分层学习率设置,以适应预训练模型与新增层的不同训练需求。同时详细讲解了学习率衰减的几种方法,包括手动修改、LambdaLR、StepLR、MultiStepLR、ExponentialLR和ReduceLROnPlateau,提供了相应的代码示例和参数解释。
摘要由CSDN通过智能技术生成

分层学习率设置和学习率衰减(pytorch)

1 分层学习率设置

在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。下面一pytorch框架简单介绍其方法。
首先获取模型每层信息的的方法如下:

for n,p in model.named_parameters()

n是模型每层名字,p是每层参数,model是模型名字。
首先我们需要对参数进行分组:

optimizer_grouped_parameters = [\
{'params': [p for n, p in model.named_parameters() if 'bert' in n},\
{'params': [p for n, p in model.named_parameters() if 'bert' not in n}], 'lr = 2e-3}]

然后如下构建优化器则可:

optimizer = AdamW(optimizer_grouped_parameters,lr=config.learning_rate, eps=config.adam_epsilon)

如果group列表某’params’组里面设置了

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值