第一篇 文本纠错前言
一、文本纠错领域的子任务
- 拼写检查:对文本中的错别字进行修正
拼写检查在英文场景表现为单词拼写错误,在中文场景表现为音近形近错别字。 - 语法检错:对文本中的语法错误进行检测
- 语法纠错:纠正文本中的语法错误
语法纠错除拼写错误外,还包括字词缺失、字词冗余、字词使用不当、语序不当等错误类型。语法纠错区别于拼写检查的一个显著特点是,语法纠错纠正后的文本和原始文本的长度不一定相等,而拼写检查纠正前后的文本长度都是保持一致的,这也决定了两者的算法支持存在差异。
二、评估指标
- M2(MaxMatch):通过计算输出文本和原始文本之间的编辑集合G,然后与人工标注的编辑集合E结合,计算准确率、召回率、F0.5值(采用F0.5表示对准确率更加关注)。
F0.5 = 1.25RP/(R+0.25P) - ERRANT:ERRANT在生成标准答案的编辑集合和生成预测的编辑集合都采用了自动判别的方式,同时支持了25种的错误类型,输出了更丰富维度的错误报告信息。缺点是该工具面向英文,中文需要做较大改造。
- 面向标注形态的其他指标
假阳性(False Positive):正确句子被判包含错误的比例。
侦测层(Detective-level):对句子是否包含错误做二分判断。从句子是否有错,判断p/r/f1
识别层(Identification-level):给出错误点的错误类型。按一个句子的错误种类计算p/r/f1
定位层(Position-level):对错误点的位置和覆盖范围进行判断,以字符偏移量计。错误位置是否对计算p/r/f1
修正层(Correction-level):提交针对字符串误用(S)和缺失(M)两种错误类型的修正词语。修正词语可以是一个词,也可以是一个词组。M/S的修正词语角度
三、数据集
目前公开的中文语义纠错数据集包括NLPCC2018、NLPTEA2020、SIGHAN2015等,较多是非母语学生学习汉语收集得来的语料集。