2020 年中英文拼写纠错开源框架梳理

本文链接：https://blog.csdn.net/javastart/article/details/107440996

本文概述了中英文文本纠错领域的多个开源项目，包括Pycorrector、FASPell、YoungCorrector、SoftMaskedBert等针对中文的纠错框架，以及xfspell、spelling-correction等适用于英文的拼写纠错工具。这些模型和技术覆盖了从规则系统到深度学习的多种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、中文：
1、Pycorrector：https://github.com/shibing624/pycorrector
当前主流的中文纠错框架，支持规则和端到端模型

在这里插入图片描述
2、FASPell：https://github.com/iqiyi/FASPell/blob/master
论文：https://www.aclweb.org/anthology/D19-5522.pdf
使用bert进行预训练+微调，再经过CSD过滤器得到最终结果。支持简体中文文本；繁体中文文本；人类论文； OCR结果等

3、YoungCorrector：https://github.com/hiyoung123/YoungCorrector
基于Pycorrector改造，实现基于纯规则的纠错系统。整个系统框架比较详细。与Pycorrector准确度差不多，耗时短（归功于前向最大匹配替代了直接索引混淆词典）

4、SoftMaskedBert：https://github.com/hiyoung123/SoftMaskedBert
对论文Soft-Masked Bert 的复现：https://arxiv.org/pdf/2005.07421.pdf
使用判别模型BiGRU+纠错模型BERT，实现端到端的纠错。

5、bert_chinese：https://github.com/JohanyCheung/bert_chinese/tree/master/corrector
直接预训练的bert模型实现中文的文本纠错，可参照学习bert如何做纠错任务

二、英文：
1、SoftMaskedBert：https://github.com/hiyoung123/SoftMaskedBert
更改训练集和测试集，即可应用于其他语言拼写纠错

2、xfspell：https://github.com/mhagiwara/xfspell
基于Transformer的拼写纠错。原理类似于机器翻译，解决了纠错时输入和输出必须保持一致的问题。通过交换输入数据和输出数据，生成大量包含错别字的文本数据。

3、spelling-correction：https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction
基于bert预训练模型的拼写纠错（需指定错误位置）

4、spellcorrect：https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py
基于编辑距离的英文拼写纠错