参考论文:Universal Language Model Fine-tuning for Text Classification
迁移学习最早是应用于机器视觉方向的,迁移学习是从general到specific的过程,在general过程中在大型语料库中进行预训练(pre-training),在specific过程中在specific task领域中进行微调(fine-tunning).
迁移学习的可行性
无论是在机器视觉还是在nlp领域中,预训练过程中发现底层特征的可复用性,而高层特征和任务的高相关性,nlp的ELMO就验证这一点。
为什么要进行预训练?
1. 训练数据小,不足以训练复杂网络
2.加速训练过程
3.参数初始化,找到好的初始点,便于优化。
为什么又要在specific task domain 进行微调?
1. 训练数据小,容易过拟合
2.从头开始基于预训练得到的特征训练,训练时间长
3.从头训练导致模型忘记pre-training的特征
这篇文章就nlp方向提出了一种新的微调方法,用于解决上面提到的微调存在的三个问题,并在nlp中的6项任务中验证本文提出的微调方式的有效性。这篇论文提出的预训练方法和之前的迁移学习中微调方法在nlp中的不同点如下,这个在ELMO中也提到过:
使用task数据fine-tuning词向量(如glove这种),只更改模型的第一层&#