背景
本文介绍了清华大学 CoAI 实验室发表于 2019 年 ACL 的成语完形填空论文。根据这篇论文的主题和数据,清华大学人工智能研究院与中国计算机学会也联合组织了一次“成语阅读理解大赛”,同时发布了比赛的 baseline 代码。参赛/代码可访问https://www.biendata.com/competition/idiom/,或点击“阅读原文”。
本次竞赛将基于选词填空的任务形式,提供大规模的成语填空训练语料。在给定若干段文本下,选手需要在提供的候选项中,依次选出填入文本中的空格处最恰当的成语。
研究动机
我们做这个工作的动机主要包含两个方面。
一是当前的机器阅读理解的语料大多是英文的,有的是基本的实体填空,也有的是针对英文中的语言现象设置问题,而汉语作为博大精深的语种,现在却少有机器阅读理解相关的语料,比较著名的是讯飞每年都在办的中文机器阅读理解评测,因此在中文领域继续进行探索是有必要的。
二是在中文领域,有一些中文特有的语言现象还没有得到充分挖掘。我们注意到,有别于在英文中也频繁出现的名词、实体或动词等词语,成语是汉语中独特的一类词。它们在形式上简洁、内涵上丰富,寥寥数字便包含深刻的哲理。考虑到很多成语来自于历史故事或寓言,它们的字面含义与真实意义可能并不一样甚至大相径庭,是典型的非合成性的多词表达,如何让机器能理解这样一类词应该是一个值得思考和探究的问题。
基于上述原因,我们采用了完形填空的任务形式,根据人工实验的结果,构建了一份大规模、高质量的成语填空数据集,分析了选项设计与几种基本的成语表示方法的影响,并评估了一流基线模型的性能。
总地来说,我们的工作在理论研究和应用上的贡献有两方面:
1. 提出了一份全新的、大规模的中文完形填空数据集,进一步丰富了中文领域的机器阅读理解的资源;
2. 据我们所知,这是首个将成语这一汉语中独特的语言现象融入机器阅读理解中的工作,为研究成语的使用场景、理解成语提供了高质量语料,也能够帮助成语学习者(包括青少年的本土学习者与汉语的第二语言学习者等)理解成语使用的方法、检测学习效果。
论文内容
数据格式
在完形填空的任务设置下,我们为问题提供了候选项。设计候选项的意义有二,一