2019.09 EMNLP 2019
第一个大规模测试程序文本推理的大型数据集。
举例:给出一个关于海滩侵蚀的段落,暴风雨的天气会导致或多或少的侵蚀(或没有影响)吗?
鉴于相关段落,任务是回答问题。WIQA包含三种问题:对本段中提到的步骤的干扰;需要常识对的外部(区间外)扰动;无关(无影响)扰动。
将数据集作为对社区的公开挑战提出。
程序文本在语言中很常见,但由于它描述了一个动态变化的世界,因此难以理解。
尽管最近的程序文本理解系统可以回答有关发生了什么事件的问题,但是他们并不清楚这些事件之间的影响程度。
而理解的一项重要测试是通过了解和追踪一段影响链去预测如果某个过程受到某种方式的干扰,将会发生什么。
WIQA包含为379个段落准备的40.7k问题。为了有效的创建问题,人们为这379个段落创建了2107个影响图(IGs),描述一个扰动如何正面或负面影响另一个。
举例:
事件:海洋侵蚀
过程:1)风在海洋中产生波浪
2)海浪冲刷到海滩上
3)海浪袭击了海滩上的岩石
4)岩石的微小部分折断了
5)岩石变小了
(构建事件发生的过程,并定义事件链的各个环节的正负极影响,构建问题集合。)
从图中的路径中得出问题,每个问题都询问一个节点中描述的更改如何影响另一个节点。 为了约束任务,扰动通常是定性的(如风在吹),并且可能的影响仅限于对段落中提到的实体和事件的更改(如海浪更大)。
论文贡献:提供了数据集;性能度量及其挑战分析,以支持针对程序文本的反事实,文本推理的研究。