The Ubuntu Dialogue Corpus- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

Ubuntu对话语料库包含1,000,000个训练样本,用于研究不结构化的多轮对话系统。数据集分为训练、验证和测试集,具有正负标签。模型旨在从多个干扰选项中识别正确的响应,并通过recall@k进行评估。代码示例展示了训练和评估时的批处理大小配置。" 114131694,10297274,Android保持Session会话实战,"['Android开发', '会话管理', 'Java', '网络请求']
摘要由CSDN通过智能技术生成

ubuntu对话语料库

训练数据由:1,000,000个例子组成,50%positive(label1)50%negative(label0)。每个example由一个文本,这里有对话,一个表达和一个与之对应的回答,和一个negative label意味着这个表达不正确--这个negative label是从语料库中随机选取的。这里有一些数据的例子
enter image description here
  这个数据集有test和validations sets。从这些训练数据中的格式是不一样的。每一条记录在test/validation set 都有context,a ground truth utterace(the real respose)和9个不正确的utterances叫做distractors(干扰选项)。模型的目标是把得分最高的utterace分配给正确的utterace,和把得分地的分配给错误的utterances。
  

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值