论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction
**摘要:**本文,我们综述了NLPCC 2018的语法修正(GEC)任务。详细的定义了任务的说明、训练数据以及评估方法。我们还总结了参与者的处理方法。这些方法证明了汉语语法纠错的水平。数据以及评估工具在https://github.com/zhaoyyoo/NLPCC2018_GEC提供下载。
1. 引言
GEC在NLP中是具有挑战性的任务,它也受到了越来越多的关注。今年,我们组织了第一次中文语法纠错任务,众多关注中文学习者的语法错误。具体的说,我们的任务是监检测非母语学者写的文章中的语法错误,并修正。之前对于中文语法错误的研究只要集中在错误检测,二我们共同的任务还包括自动纠正这些语法错误。尽我们所能,我们为这个中文GEC任务提供了第一个基准数据。
该任务的目标是开发一个工具去自动检测并纠正在学习中文的CSL(以中文为第二语言Chinese as a Second Language)。我们提供了一个大规模的非母语学者写的中文文章,其中的错误已被母语学者注释,并修正。使用统一的评测工具与评测指标以及盲测数据用于测评参与团队的结果。
一共有23支队伍报名了任务,只有6支队伍提交了他们的结果。这份综述文章详细说明了这个任务,并按以下内容展开:第二节给出了任务的定义;第三节详细介绍了数据集以及注释标准;第四节提供了评价指标;第五节结束了来自参与者的不同方法;第六届展示了最终的结果;第七节给出了综述的结论。
2. 任务定义
自动纠正语法错误是一项具有挑战性的任务,也越来越受关注。任务的而目标是检测并纠正有非母语学者书写的中文文章。对于带有语法错误更正和盲测数据的注释性训练数据,参赛团队应提交测试数据中自动更正的文本版本。表1显示了任务定义下的错误量词示例。
初始输入 | 那是一个牛 。 |
---|---|
分词输入 | 那 是 一 个 牛 。 |
输出 | 那是一头牛。 |
输出 | 那 是 一 头 牛 。 |
3. 数据
这节介绍了此任务发布的训练、测试数据
3.1 训练数据
训练数据从http://lang-8.com/收集,这是一个语言学习网站,以英语为母语的人可以自由选择修改学习者的文章。我们通过探索“语言交换”社交网络服务(SNS),收集了一个大规模的汉语普通话学习者语料库。在这个SNS网站上大约有68500名中国普通话学习者。通过收集他们的中文论文和中国本地人的修订版,我们初步建立了一个语料库,从135754篇论文中收集了1108,907个句子。
由于修正规范不统一,原始语句中存在大量噪声,我们采取了一系列措施来清理数据。首先,我们删除被<spanclass = " sline " >包围的单词,因为这表示内容冗余。对于其他类型的标签,