CRASPell:A Contextual Typo Robust Approach to Improve Chinese Spelling Correction(ACL2022)

墨痕_777

于 2024-09-17 20:31:19 发布

阅读量196

点赞数 4

文章标签： http

本文链接：https://blog.csdn.net/mohen_777/article/details/140612756

版权

CRASPell:A Contextual Typo Robust Approach to Improve Chinese Spelling Correction(ACL2022)

一．概述

作者认为基于bert的纠错模型有2个限制：(1)文本中有多个错别字符(文本中超过1个错别字)，会导致效果不好；(2)倾向将低频字符过纠为高频字符。为了使我们的模型对错别字带来的上下文噪声具有鲁棒性，我们的方法首先为每个训练样本构建一个有噪声的上下文。然后，校正模型被强制产生基于噪声和原始上下文的相似输出。此外，为了解决过度纠错问题，我们引入了copy机制，以鼓励我们的模型在纠错字符和输入字符根据给定上下文都有效时更倾向于选择输入字符(原始输入的字符和纠正后的字符在上下文都有效时)。

代码：https://github.com/liushulinle/CRASpell。

纠错模型本质上是基于上下文对错别字进行识别和纠正。在多错误样本中，上下文中至少包含一个错别字。这种错别字使得上下文中包含噪声信息，我们认为正是这种上下文中的噪声导致模型在多错误样本识别效果变差。作者称为上下文错误干扰(Contextual Typo Disturbance)。

Bert模型学习了如何从大语料库中基于上下文恢复掩码token。当一个被mask的位置有多个有效字符时，模型倾向于使用训练语料库中高频字符来恢复它。基于bert的模型倾向于将低频但有效的表达过度纠正为高频的表达。例如，“这并非是否…”过度纠正为“这不是説…”。作者称为过纠(Overcorrection)。

因此，解决以上问题的关键是提升模型对上下文噪声的建模能力。我们的方法首先为每个训练实例生成一个有噪声的上下文，然后强制校正模型基于原始和有噪声的上下文产生相似的输出。此外，为了解决过纠的问题，我们引入了copy机制。最后，给定文本中每个位置的输出是生成分布和复制copy分布的总和。这样原始输入的字符和纠正后的字符在上下文都有效时，原始字符将更有可能保持不变。

本文主要贡献如下：

A.指出了现有CSC方法的两个局限性：上下文错误干扰(Contextual Typo Disturbance)和过纠(Overcorrection)。

B.提出有效的方法去处理以上的局限性。

二．方法概述

在这里插入图片描述

上图由校正模块和噪声建模模块组成。

1.任务定义

输入句子X={x1,x2,…,xn}，对其进行校对，生成正确句子Y={y1,y2,…,yn}。

2.校正模块(Correction Module)

如图1的左边部分，输入的是句子embedding嵌入E={e1,e2,…,en}，这里的ei表示句子X中的字符xi的embedding，其是单词embedding，位置embedding和segment embedding的和(即bert的输入)。然后E输入到Bert中，产生隐表示矩阵H={h1,h2,…,hn},维度是768。该模块的最终输出是生成分布和copy分布的加权和，其中权重为模型学习到的copy概率。