The Ubuntu Dialogue Corpus- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

ubuntu对话语料库

训练数据由:1,000,000个例子组成,50%positive(label1)50%negative(label0)。每个example由一个文本,这里有对话,一个表达和一个与之对应的回答,和一个negative label意味着这个表达不正确--这个negative label是从语料库中随机选取的。这里有一些数据的例子
enter image description here
  这个数据集有test和validations sets。从这些训练数据中的格式是不一样的。每一条记录在test/validation set 都有context,a ground truth utterace(the real respose)和9个不正确的utterances叫做distractors(干扰选项)。模型的目标是把得分最高的utterace分配给正确的utterace,和把得分地的分配给错误的utterances。
  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值