©PaperWeekly 原创 · 作者 | 金金
单位 | 阿里巴巴研究实习生
研究方向 | 推荐系统
简介
自然语言对话系统最近引起了极大的关注。由于许多对话模型是数据驱动的,因此高质量的数据集对这些系统至关重要。在本文中,作者介绍了 Pchatbot,这是一个大规模对话数据集,包含分别从微博和司法论坛收集的两个子集。
为了使原始数据集适应对话系统,作者通过匿名化、重复数据删除、分割和过滤等过程精心标准化原始数据集。Pchatbot 的规模明显大于现有的中文数据集,这可能有利于数据驱动模型。
此外,当前个性化聊天机器人的对话数据集通常包含多个角色句子或属性。与现有数据集不同,Pchatbot 为帖子和回复提供匿名用户 ID 和时间戳。这使得个性化对话模型的开发能够直接从用户的对话历史中学习隐含的用户个性。
本文的初步实验研究对几种最先进的对话模型进行了基准测试,以便为未来的工作提供比较。
论文标题:
Pchatbot: A Large-Scale Dataset for Personalized Chatbot
论文来源:
SIGIR 2021
论文链接:</