分层学习率设置和学习率衰减(pytorch)
1 分层学习率设置
在使用bert或者其它预训练模型进行微调,下接其它具体任务相关的模块时,会面临这样一个问题,bert由于已经进行了预训练,参数已经达到了一个较好的水平,如果要保持其不会降低,学习率就不能太大,而下接结构是从零开始训练,用小的学习率训练不仅学习慢,而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率,对下接层设置较大学习率。下面一pytorch框架简单介绍其方法。
首先获取模型每层信息的的方法如下:
for n,p in model.named_parameters()
n是模型每层名字,p是每层参数,model是模型名字。
首先我们需要对参数进行分组:
optimizer_grouped_parameters = [\
{'params': [p for n, p in model.named_parameters() if 'bert' in n},\
{'params': [p for n, p in model.named_parameters() if 'bert' not in n}], 'lr = 2e-3}]
然后如下构建优化器则可:
optimizer = AdamW(optimizer_grouped_parameters,lr=config.learning_rate, eps=config.adam_epsilon)
如果group列表某’params’组里面设置了