RecAdam optimizer 阅读笔记

Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting

摘要

在优化器角度,全任务提升BERT fine-tune的效果

做法

提出 模拟预训练,可以fine-tune时 无数据预训练
提出 目标Shifting,可以在 模拟预训练 同时训练fine-tune目标

大概思想

loss使之和 fine-tune之前 的模型参数有关
-

其中θ是fine-tune时模型,θ*是fine-tune之前的模型

实验结果

-

©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页