UMFiT
Introduction
文章贡献点:
- 利用迁移学习的思想, 提出基于微调的通用语言模型(ULMiT)
- 提出discriminative fine-tuning, slanted triangular learning rates, gradual unfreezing等方法
Model
进入正题, 先来看下模型结构
首先预训练一个语言模型, 论文中采用的是AWD-LSTM(没有attention, short-cut connection, 只是加了很多dropout等防止过拟合的策略).
整个模型训练主要分为三部分:
- General-domin LM pretraining
- Target task LM fine-tuning
- Target task classifier fine-tuning
1. General-domin LM pretraining
在Wikitext-103上预训练一个语言模型, 其中包含28595篇处理过的文章.
预训练对小数据集的任务帮助很大.
2. Target task LM fine-tuning
利用目标任务数据集对预训练模型进行fine-tuning.
针对f