摘要
E2E模型是一种常见的NLG方式,但是需要大量质量较高的标注样本。而且每次有新的NLG应用时又需要重新构造数据集,非常繁琐且耗时。本文提出了一种半监督的深度学习机制,可以从非标注&标注样本中学习。通过NLG-NLU端到端的联合学习来弥补标注的缺失。通过在两个标准数据集上的实验表明,该模型可以很好地在标注数据有限的情况下,不借用任何预处理和re-score技巧,仍能得到很好的结果,从而改进当前E2E的NLG受限于标注数据的问题。
E2E简介
可以看博主之前的笔记。
NLG-NLU联合学习机制
模型如下图所示,NLG模型和NLU模型都是端到端的,而且可以用标注数据分开训练。这种情况下,NLG任务是用输入的MR ,而NLU任务则是从输入的文本
中预测MR
.
虚线表示使用无对儿数据(即无标注数据),对于第一种情况,当无标注输入数据是文本时,会输入给NLU模型,再将NLU模型的结果给NLG模型,得到
.
当不知道结构数据MR(即x)的时候,所以我