2020 年 中英文拼写纠错开源框架梳理

 

 

一、中文:
1、Pycorrector:https://github.com/shibing624/pycorrector
当前主流的中文纠错框架,支持规则和端到端模型

在这里插入图片描述
2、FASPell:https://github.com/iqiyi/FASPell/blob/master
论文:https://www.aclweb.org/anthology/D19-5522.pdf
使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等


3、YoungCorrector:https://github.com/hiyoung123/YoungCorrector
基于Pycorrector改造,实现基于纯规则的纠错系统。整个系统框架比较详细。与Pycorrector准确度差不多,耗时短(归功于前向最大匹配替代了直接索引混淆词典)

4、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
对论文Soft-Masked Bert 的复现:https://arxiv.org/pdf/2005.07421.pdf
使用判别模型BiGRU+纠错模型BERT,实现端到端的纠错。


5、bert_chinese:https://github.com/JohanyCheung/bert_chinese/tree/master/corrector
直接预训练的bert模型实现中文的文本纠错,可参照学习bert如何做纠错任务

二、英文:
1、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
更改训练集和测试集,即可应用于其他语言拼写纠错

2、xfspell:https://github.com/mhagiwara/xfspell
基于Transformer的拼写纠错。原理类似于机器翻译,解决了纠错时输入和输出必须保持一致的问题。通过交换输入数据和输出数据,生成大量包含错别字的文本数据。


3、spelling-correction:https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction
基于bert预训练模型的拼写纠错(需指定错误位置)

4、spellcorrect:https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py
基于编辑距离的英文拼写纠错

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值