Towards Making the Most of BERT in Neural Machine Translation
目的:如何更好的使用预训练模型?—>微调效果并不好;上一篇笔记中的方法将BERT embeddings作为encoder的初始化或者中间的嵌入比较适用于低资源的情况,在高资源情况下由于训练中的太多更新,会导致遗忘。
方法:
(1)Asymptotic Distilation:预训练模型做老师,encoder做学生,计算预训练模型hidden state和encoder top layer state的MSE loss。
(2)Dynamic Switch:门控单元控制给多少预训练模型的东西给encoder。
(3)learning rate的设置。