论文解读:FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradig

论文解读:FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm

简要信息:

序号属性
1模型名称FASPell
2所属领域自然语言处理
3研究内容中文拼写纠错
4核心内容图表征,语言模型
5GitHub源码https://github.com/iqiyi/FASPell
6论文PDFhttps://aclanthology.org/D19-5522.pdf

动机:

  • 近年来拼写错误在英文上得以应用,但由于英文与中文在语义和语法上的差异性,在你英文上的方法无法直接用在中文上;
  • 先前的中文拼写纠错建立在confusion set(相似字符集合),filter从候选字符中挑选最佳的字符,但其依然有两个问题:(1)在数据资源不足时候容易过拟合;(2)使用confusion set并不灵活和有效

inflexibility to address the issue that confusing characters in one scenario may not be confusing in another.
insufficiency in utilizing character similarity.

  • 优势:提出的方法更加快,更加自适应,更加简单以及更加健壮。

方法:

  本文提出一种FASPell模型,包含Denoising Autoencoder(DAE)和Decoder模块,遵循Encoder-Decoder架构。其中Masked Language Model(MLM)作为DAE模块来生成candidate,Confidence-similarity Decoder则用来过滤candidate。

在这里插入图片描述

Masked Language Model

  MLM是BERT中的一个任务,给定一个文本,80%的token被替换且[MASK],10%的token被替换为其他token,剩余10%保持不变。MLM的任务则是预测[MASK]对应的token。可以换一个角度来理解MLM,如果将[MASK]token当作错误的拼写,则MLM恰巧就是取纠正这个错误。而还有一部分的token是保持不变的,即还需要模型能够检测token是否是错误的拼写。因此MLM兼具拼写检测和纠正两个作用

  考虑到随机mask的token与真实场景下的错误拼接是有差距的,因此本文提出在拼写检测数据集上的微调方法:

  • 如果给定的文本不存在错误拼写,则按照原来的MLM训练;
  • 如果给定的文本存在错误拼写。有两种生成训练数据方法:(1)对于错误的拼写token,将其mask掉,并将label对应于真实的token;(2)为了避免过拟合,对没有拼写错误的token进行mask掉,并将label对应于这个token。

Character Similarity

  作者认为MLM起到的作用并非强大,因此有必要添加一个decoder。
错误的中文字符通常与正确的字符存在视觉和发音的相似性,而在OCR任务中则偏向于视觉相似性。

visual similarity

  在视觉相似性中,通常选择表意描述序列(Ideographic Description Sequence (IDS))来表示字符的字形,本质上是有序树的前序遍历路径。

对字形进行计算时主要采用CJK字的细粒度IDS表示

在这里插入图片描述

  在定义视觉相似性,本文只使用IDS,两个字符之间的相似性则使用1减去正则化的IDS序列Levenshtein编辑距离来表示。

  • 此时相似性值在0-1之间;
  • 如果一对较复杂的字符与一对较不复杂的字符具有相同的编辑距离,我们希望较复杂字符的相似度略高于较不复杂字符的相似度

Phonological Similarity

  本文利用字符的发音相似性。两个字符之间的发音相似性则使用1减去正则化的音标序列Levenshtein编辑距离来表示。

考虑到中文同音字的影响,在进行字音相似度计算时采用了汉字在普通话(MC)、粤语(CC)、日语(JO)和韩语(K)中的不同发音共同进行字音相似度的计算。

在这里插入图片描述

Confidence-Similarity Decoder(CSD)

  传统的candidate filter方法是为多个候选字符的特征设置不同的阈值和权重。而本文则使用confidence-similarity decoder(结合上下文置信度和字符相似性)

在这里插入图片描述

如上图,对于所有候选的candidate,可以获得相应的confidence score和character similarity。2-4则是三种过滤曲线。

In FASPell, we optimize correction performance and manually find the filtering curve using a training set, assuming its consistency with its corresponding testing set. But in practice, we have to find two curves – one for each type of similarity, and then take the union of the filtering results.
在 FASPell 中,我们优化校正性能并使用训练集手动找到过滤曲线,假设其与相应的测试集一致。 但在实践中,我们必须找到两条曲线——每种相似度都对应一条曲线,然后取过滤结果的并集。

  请注意,使用提出的置信相似度解码器,替换的最终选择不一定是排名第一的候选者。

理解:利用训练集文本通过MLM输出的矩阵,逐行绘制语境把握度-字符相似度散点图,确定能将FP和 TP分开的最佳分界曲线。推理阶段,逐行根据分界线过滤掉FP得到TP结果,然后将每行的结果取并集得到最终替换结果。
以图1为例,句子首先通过fine-tune训练好的MLM模型,得到的候选字符矩阵通过CSD进行解码过滤,第一行候选项中只有“主”字没有被CSD过滤掉,第二行只有“著”字未被过滤掉,其它行候选项均被分界线过滤清除,得到最终输出结果,即“苦”字被替换为为“著”,“丰”被替换为“主”。

实验

数据集:
在这里插入图片描述

实验设置: 使用BERT的预训练MLM,超参数则与BERT一致;
在OCR识别的数据集上,不使用MLM的Fine-tuning;

评价指标:
选择Acc、Recall和F1作为评价指标,在detection和correction分别进行评测。

实验结果:

在这里插入图片描述

优点: 使用MLM预测候选,生成的方式替代了pt表,整个流程非常简单,需要的标注数据也很少,排序时使用字音字形特征,尤其是字音使用多种汉字发音,可解释性也比较好。

缺点: 只能解决错字场景,多字/少字/乱序场景不支持(这种一般都是实体类型,可单独解决)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华师数据学院·王嘉宁

$感谢支持$

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值