【论文向】NAACL2022 汉语纠错多源、多参考数据集MuCGEC

最新推荐文章于 2024-04-20 09:37:01 发布

阿芒Aris

最新推荐文章于 2024-04-20 09:37:01 发布

阅读量2k

点赞数 1

分类专栏：论文向文章标签： NAACL 文本纠错论文

本文链接：https://blog.csdn.net/qq_44574333/article/details/124934172

版权

论文向专栏收录该内容

8 篇文章 1 订阅

订阅专栏

【论文向】MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction

原文地址： MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction

【论文向】MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction
一 Introduction
二 Data Annotation
三 Analysis of Our Annotated Data
四 Benchmark Models
五 Experiments on NLPCC18-Orig Data
六 Evaluation Metrics
七 Related Works
八 Conclusions
Acknowledgements

注：论文阅读笔记仅帮助大家快读了解、知晓论文的创新点、重点等，如需详细掌握请点击上方标题自行阅读，在此是存在一定博主和读者偏见的，有任何问题欢迎留言指正补充或讨论。

博客顺序完全参照论文顺序书写

一 Introduction

GEC语法错误修正定义问题为，给定可能有错误的文本内容，返回正确的文本。
中文CGEC数据集仅有两个公开的，NLPCC18和CGED。而中文CGEC数据集缺乏多源参考，且数据集源于单一文本。为此，MUCGEC采用多参考、多源数据集，共7063个句子，每个句子约2.3条参考、并提出了两个使用预训练模型的baseline：Seq2Edit、Seq2Seq，且使用了模型集成的方法。

二 Data Annotation

2.1 多源数据部分：重新标注了NLPCC18的测试集、从CGED-2018和CGED-2020测试集中筛选错误句子、通过语言学习平台Lang8，随机选取字符长度30到60的2000个句子。最终，总计获得了7137句，并且抛弃原有的错误标注而重新按照本文的标注准则进行标

2.2 标准范式重新部分：标注GEC数据的方式主要有两种 error-coded 和 direct rewriting：
error-coded方式需要标注者在原句中清晰标注错误区域并给予修正。NLPCC18和CGED数据集均采用了error-coded 方式。但文献指出这种方法存在两个挑战：（1）让不同标注者对错误区域划分出同样的错误类型是困难的，尤其是在错误类型多的时候；（2）基于复杂的标注范式，标注者将不太在意参考结果的流畅性，甚至会有不自然的表达。
Direct rewriting方式要求标注者直接标注重写输入句子，生成语法正确的句子，而不改变原始语义。该论文中就采用这种方式，且在标注者能够更自由地改错下将得到更多样化的参考。

2.3 标注规范部分：两层错误分类：5大错误和14小错误。为解决如动词缺失的多答案问题，本文采用直接填充[MC](context-dependent missing components)，现有GEC模型不能够处理[MC]，这将会是未来的研究工作之一。

2.4 标注流程和工具部分：为了多样性和高质量参考，每句将由三个标注者标注，他们的标注会再随机交给一名评审员再评审。评审是通过线上完成的。

2.5 标注流程：人多时间长。2.6 Ethical Issues 伦理议题：评注工作有偿合理

三 Analysis of Our Annotated Data

第一点，语法错误评审严苛；第二点，NLPCC18句子长度更短，CGED长度更长；第三点，在重新标注的NLPCC18中每句将会有平均2.5个参考，这是原本的两倍之多。

四 Benchmark Models

以下模型均是在Lang8+HSK下训练
1 Seq2Edit模型将GEC当作序列分类任务，token-level级修正如插入、删除和替换。选用的具体模型是GECToR，使用预训练语言模型作为Encoder端，具体使用StructBERT，因为实验中fine-tuning表现最好。
2 Seq2Seq模型直接将GEC当作序列生成任务，结合T5、BART的文本生成能力，实现了Chinese BART来初始化。
3 集成模型，采用一种编辑投票机制，以字符为单位评估。从每个模型中获得编辑结果，并仅保存半数模型以上得到的相同结果。具体集成为
1 x Seq2Edit + 1 x Seq2Seq
3 x Seq2Edit + 3 x Seq2Seq

五 Experiments on NLPCC18-Orig Data

为证明benchmark模型的有效性，在原始NLPCC18测试集上进行实验。
Seq2Seq模型在仅使用Lang8训练时，不使用MaskGEC数据增强时就已经较好。增加HSK训练数据后又提升4个点。Seq2Edit模型对比了其他语言模型，均使用Large型号，其中StructBERT效果最好。

六 Evaluation Metrics

先前的CGEC数据集均是考虑词语序列、基于词进行评估，这样的前提就是需要中文分词，本文相信这会带来误差。为此，本文使用基于字的评估方式，考虑到了如下三种基于字的编辑错误：1 删除多余字 2 插入缺失字 3 替换字；然后再合并连续的同一类型的错误。最后计算P/R/F值，并选取最高的F-score。当上述字级的错误考虑后，还有一种词序的错误问题，基于段的字序问题通常由重复+缺失组成，使用一种启发式方法简单处理，评估代码里有写。
实验有趣地发现3+3的集成模型在所有测试集上效果均优于1+1，而在原始NLPCC18上反而次与，其中的原因推测为只有多参考答案的数据集才能更准确地验证模型性能。最后，模型的效果还是较差于人类，可研究。
试验结果表明，Seq2Edit模型善于处理重复字，Seq2Seq模型善于处理替换字和词序问题。对于缺失字两种效果相似。从模型结构角度分析，对于重复字，Seq2Edit模型仅需要对这个位置进行合理的删除选项即可，而对于Seq2Seq来说却是不明显的。对于替换字、词序Seq2Seq模型有着利用语言模型的角度，特别是在BART的加持下。

七 Related Works

EGEC数据集：FCE、NUCLE、JFLEG、W&I ----> AESW、LOCNESS、GMEG、CWEB
CGEC数据集：NLPCC18、CGED、Lang8、HSK、YACLC
EGEC\CGEC数据集的研究简述，在CGEC数据集上的最新研究有从RNN/CNN到Transformer的Seq2Seq模型，以及首次使用Seq2Edit模型达到Seq2Seq相当效果。如在CGED2020上，开源的Seq2Edit模型GECToR。且大多数Seq2Edit模型使用如BERT的语言模型来初始化Encoder端。还有学者使用非自回归机器翻译模型应用于CGEC上。除了模型优化，像数据增强、模型融合等都被证明对CGEC有效果。