SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集

Pchatbot是SIGIR 2021上发布的一个大规模中文对话数据集,包含微博和司法论坛数据,用于个性化聊天机器人研究。数据集经过匿名化、敏感词过滤等处理,规模超过现有中文数据集,提供了用户ID和时间戳以支持个性化对话模型的训练。初步实验展示了数据集对先进对话模型的提升潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

自然语言对话系统最近引起了极大的关注。由于许多对话模型是数据驱动的,因此高质量的数据集对这些系统至关重要。在本文中,作者介绍了 Pchatbot,这是一个大规模对话数据集,包含分别从微博和司法论坛收集的两个子集。

为了使原始数据集适应对话系统,作者通过匿名化、重复数据删除、分割和过滤等过程精心标准化原始数据集。Pchatbot 的规模明显大于现有的中文数据集,这可能有利于数据驱动模型。

此外,当前个性化聊天机器人的对话数据集通常包含多个角色句子或属性。与现有数据集不同,Pchatbot 为帖子和回复提供匿名用户 ID 和时间戳。这使得个性化对话模型的开发能够直接从用户的对话历史中学习隐含的用户个性。

本文的初步实验研究对几种最先进的对话模型进行了基准测试,以便为未来的工作提供比较。

论文标题:

Pchatbot: A Large-Scale Dataset for Personalized Chatbot

论文来源:

SIGIR 2021

论文链接:</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值