迁移学习的思路是:先在大规模的未标注文本语料上无监督地预训练一个语言模型,再把预训练好的语言模型迁移到特定的任务上,对模型参数进行微调。目前迁移学习的大部分研究集中在文本分类和NLU(natural language understanding)任务上,迁移学习应用在NLG(natural language generation)任务上的研究比较少。这篇论文主要研究了迁移学习在对话系统上的应用。
作者针对对话系统试验了single-input 和 multi-input 这两种模型;因为对话系统主要有三种输入:dialogue history,facts以及previous decoded tokens;
single-input模型:把三种输入连接起来作为模型的输入。连接方式有三种: