The LAMBADA dataset:Word prediction requiring a broad discourse context

摘要

LAMBADA是一个数据集,用于评估模型对文本理解的能力,通过使用词预测任务。这个词预测任务有这样的性质,即必须阅读全文,对全文有理解后,才能选出正确答案。

不同于其他数据集

CNNDM:输入为一段文本,将文本摘要中隐藏掉一些单词,要求模型能够根据文本对摘要中隐藏掉的单词进行预测。这要求模型需要对文章具有总结能力。

CBT:对于一个连续的文本,对文本中的一些词隐藏,要求模型能够预测出这些词。这与LAMBADA不同的是,它可能通过局部上下文就能够预测出。

LAMBADA例子

LAMBADA数据集

通过使用多个模型进行自动化选择而来。为了使得模型数据不能被局部上下文猜测出来。使用了这三个步骤

1,one human subject guessed the target word based on the whole passage (comprising the context and the target sentence); if the guess was right,

2,a second subject guessed the target word based on the whole passage; if that guess was

also right,

3,more subjects tried to guess the target word based on the target sentence only, until the word was guessed or the number of unsuccessful guesses reached 10; if no subject wasable to guess the target word, the passage was added to the LAMBADA dataset.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值