摘要
LAMBADA是一个数据集,用于评估模型对文本理解的能力,通过使用词预测任务。这个词预测任务有这样的性质,即必须阅读全文,对全文有理解后,才能选出正确答案。
不同于其他数据集
CNNDM:输入为一段文本,将文本摘要中隐藏掉一些单词,要求模型能够根据文本对摘要中隐藏掉的单词进行预测。这要求模型需要对文章具有总结能力。
CBT:对于一个连续的文本,对文本中的一些词隐藏,要求模型能够预测出这些词。这与LAMBADA不同的是,它可能通过局部上下文就能够预测出。
LAMBADA例子
LAMBADA数据集
通过使用多个模型进行自动化选择而来。为了使得模型数据不能被局部上下文猜测出来。使用了这三个步骤
1,one human subject guessed the target word based on the whole passage (comprising the context and the target sentence); if the guess was right,
2,a second subject guessed the target word based on the whole passage; if that guess was
3,more subjects tried to guess the target word based on the target sentence only, until the word was guessed or the number of unsuccessful guesses reached 10; if no subject wasable to guess the target word, the passage was added to the LAMBADA dataset.