Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021
链接:https://aclanthology.org/2021.findings-acl.122.pdf
参考:2021ACL中文文本纠错论文:Global Attention Decoder for Chinese Spelling Error Correction 论文笔记 - 知乎
摘要
近期BERT在CSC中的应用大多基于局部上下文信息,对词进行修正。
- 没有考虑句子中错词的影响。
- 对错误语境信息的关注会误导并降低CSC的表现。
该方法:
- Global Attention Decoder (GAD):潜在正确输入字符与潜在错误输入字符候选字符间的全局关系【获取更丰富的全局上下文信息,减轻局部错误上下文影响】
- A BERT with Confusion set guided Replacement Strategy(BERT_CRS):带有混淆集引导替换策略的BERT,缩小与下游任务CSC间的距离。
- 生成的候选字符覆盖正确字符概率>99.9
- 比其他模型性能高处6.2%,SOTA
结论
- GAD(全局注意解码器):在潜在正确输入字符与潜在错误输入字符候选字符条件下,学习全局关系,缓解错误语境。
- BERT_CRS:缩小BERT与CSC差距。
三个数据集上实验表明,BERT_CRS优于以往所有最先进方法,与GAD结合获得了更高的性能。
介绍
- 拼写纠错:发现错误字符/单词→改正
- 错误来源:人类书写、语音识别、光学字符识别(OCR)
- 汉语错别字:字音(83%)、视觉(48%)、语义相似性。
- 难点:同一个字在不同的语境中可能会有很大的变化。
CSC的主要方法:
- 基于语言模型(Yeh et al., 2013; Yu and Li, 2014; Xie et al., 2015
- 基于seq2seq模型 (Wang et al., 2019, 2018)
随着预训练BERT模型出现,取得了更大进展 (Hong et al., 2019; Zhang et al., 2020;
Cheng et al., 2020) ,几乎所有方法都利用了混淆集(音/视相似)
(Yu and Li, 2014)基于候选集生成候选字符,并找出语言模型判断概率最高的候选字符。
(Cheng et al., 2020)使用卷积网络,利用混淆集捕捉字符之间的相似性和先验依赖关系。
(Wang et al., 2019)提出了一种从混淆集生成字符的指针网络。
之前方法基于含有噪声或其他错误的局部上下文信息来预测每个字符或单词。
流程:
- 为解决局部错误上下文信息,引入潜在错误字符的候选集和由BERT_CRS生成的隐层状态。
- 全局注意力来获取全局隐层状态和潜在全局注意权重。