ubuntu对话语料库
训练数据由:1,000,000个例子组成,50%positive(label1)50%negative(label0)。每个example由一个文本,这里有对话,一个表达和一个与之对应的回答,和一个negative label意味着这个表达不正确--这个negative label是从语料库中随机选取的。这里有一些数据的例子
这个数据集有test和validations sets。从这些训练数据中的格式是不一样的。每一条记录在test/validation set 都有context,a ground truth utterace(the real respose)和9个不正确的utterances叫做distractors(干扰选项)。模型的目标是把得分最高的utterace分配给正确的utterace,和把得分地的分配给错误的utterances。