MT-DNN
Introduction
学习文本的向量空间表达对许多自然语言理解问题都很重要.
现在两个比较流行的方法是
- multi-task learning
- language model pre-training
在这篇论文中, 作者提出结合两种方法的网络–Multi-Task Deep Neural Network(MT-DNN).
1. Multi-Task learning
multi-task learning优点:
- 监督学习往往需要大量的标注样本, 但有时候标注数据并不容易取得. MTL可以利用相关的多个任务的标注数据来训练.
- MTL获益于正则化, 可以避免发生对一个特定任务出现过拟合.
2. language model pretraining
语言模型预训练借助大量无标注数据进行预训练.比如最近很火的ELMo, GPT, BERT都是采用预训练的思想. 对于特定的下游任务, 利用预训练模型进行fine-tuning就可以获得不错的效果.
目前的做法都是采用其中一个方法去训练, 但是作者认为以上两种方法其实是可以互补的.
MT-DNN在训练上和BERT类似, 包括两个阶段: pre-training和fine-tuning.
不同的是, MT-DNN在fine-tuning阶段进行multi-tasks learning.
Tasks
MT-DNN包含了四个NLU任务:
- single-sentence classification
- pairwise text classification
- text similarity scoring
- relevance ranking
Model
模型包括两大部分:
- Shared layers
- Task specific layers
Shared layers
shared layer包括两个encoder:
- lexicon encoder
- transformer encoder
对于一个输入 X X X, 首先通过lexicon encoder层 l 1 l1 l1得到embedding vectors, 然后, 在