这项工作是清华大学欧智坚老师团队和中移动研究院冯俊兰老师团队合作的工作。基于马尔科夫生成框架在任务型对话数据集MultiWOZ2.1上获得了较好性能。整体来看,本文属于一篇讨论型论文,认为维护的对话状态和当前用户输入以上一轮的系统响应已经足以表征完整的对话历史,在生成模型训练和推断时不需要再将所有的对话历史全部输入,不仅带来计算和显存的巨大消耗,还容易引入冗余噪音。我们在这里详细介绍一下该工作的细节。
相关代码Github:https://github.com/SereTOD/SereTOD2022/tree/main/Track2/baseline
目录
摘要:
近期,基于Transformer的预训练语言模型(PLM),如GPT2和T5,已被用于构建生成式任务型对话(TOD,Task-Oriented Dialog)系统。现有PLM模型的一个缺点是其对话轮次间的非马尔可夫框架,即在每个对话轮将整个对