1. 设置一个较大的learning_rate
learning_rate = 1e-3
2. 设置warmup
from transformers import AdamW, get_constant_schedule_with_warmup
optimizer = AdamW(model.parameters(), lr=learning_rate, correct_bias=True)
scheduler = get_constant_schedule_with_warmup(optimizer, num_warmup_steps=1000)
3. 导致train loss突变时的learning_rate/10即为合适的learning rate。
该train loss突变点前为step 348,对应的learning_rate为0.000346,约等于3e-4,除以10为3e-5。因此,在该模型训练过程中设置learning_rate为3e-5 会比较合适。