SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集

最新推荐文章于 2024-07-08 10:52:32 发布

PaperWeekly

最新推荐文章于 2024-07-08 10:52:32 发布

阅读量1.3k

点赞数

文章标签：人工智能推荐系统自然语言处理知识图谱编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/119495200

版权

Pchatbot是SIGIR 2021上发布的一个大规模中文对话数据集，包含微博和司法论坛数据，用于个性化聊天机器人研究。数据集经过匿名化、敏感词过滤等处理，规模超过现有中文数据集，提供了用户ID和时间戳以支持个性化对话模型的训练。初步实验展示了数据集对先进对话模型的提升潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

自然语言对话系统最近引起了极大的关注。由于许多对话模型是数据驱动的，因此高质量的数据集对这些系统至关重要。在本文中，作者介绍了 Pchatbot，这是一个大规模对话数据集，包含分别从微博和司法论坛收集的两个子集。

为了使原始数据集适应对话系统，作者通过匿名化、重复数据删除、分割和过滤等过程精心标准化原始数据集。Pchatbot 的规模明显大于现有的中文数据集，这可能有利于数据驱动模型。

此外，当前个性化聊天机器人的对话数据集通常包含多个角色句子或属性。与现有数据集不同，Pchatbot 为帖子和回复提供匿名用户 ID 和时间戳。这使得个性化对话模型的开发能够直接从用户的对话历史中学习隐含的用户个性。

本文的初步实验研究对几种最先进的对话模型进行了基准测试，以便为未来的工作提供比较。

论文标题：

Pchatbot: A Large-Scale Dataset for Personalized Chatbot

论文来源：

SIGIR 2021

论文链接：</

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。