作者 | 余梁
审稿 | 陈梓豪
指导 | 闵小平(厦门大学)
今天给大家介绍的是由微软Yizhe Zhang等人发表在arXiv上的文章”DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation”,此文已被ACL 2020接收。
本文介绍了一种大规模、可调整的神经对话响应生成模型DialoGPT(dialogue generative pre-trained transformer),模型在从2005年至2017年Reddit评论链中提取的1.4亿条会话交流的数据上进行训练。DialoGPT扩展了Hugging face transformer模型来实现接近人类的表现。相比于基准系统,DialoGPT生成的文本更相关,更有内容,更具有一致性。
1介绍
最近,利用基于transformer架构进行大规模预训练的模型都取得了很大的成功。例如,OpenAI的GPT-2证明了在大规模数据集训练的transformer模型可以捕捉文本数据中的长期依赖关系,并且可以生成流畅、词汇多样、内容丰富的文本。
DialoGPT扩展了GPT-2来应对对话神经响应生成(conversational neural response generation model)遇到的挑战。