中文拼写纠错_中英文拼写纠错开源框架梳理

最新推荐文章于 2024-04-05 09:43:46 发布

weixin_39895684

最新推荐文章于 2024-04-05 09:43:46 发布

阅读量505

点赞数

文章标签：中文拼写纠错

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39895684/article/details/111488142

版权

本文梳理了多个用于中文和英文拼写纠错的开源框架，包括Pycorrector、FASPell、YoungCorrector、SoftMaskedBert和bert_chinese等。这些框架基于规则、预训练模型和端到端方法，适用于不同场景，如简繁体中文、OCR文本和论文文本的纠错。同时，也介绍了基于Transformer的xfspell和基于编辑距离的spellcorrect等英文拼写纠错解决方案。

摘要由CSDN通过智能技术生成

一、中文：

1、Pycorrector：https://github.com/shibing624/pycorrector

当前主流的中文纠错框架，支持规则和端到端模型

2、FASPell：https://github.com/iqiyi/FASPell/blob/master

论文：https://www.aclweb.org/anthology/D19-5522.pdf

使用bert进行预训练+微调，再经过CSD过滤器得到最终结果。支持简体中文文本；繁体中文文本；人类论文； OCR结果等

3、YoungCorrector：https://github.com/hiyoung123/YoungCorrector

基于Pycorrector改造，实现基于纯规则的纠错系统。整个系统框架比较详细。与Pycorrector准确度差不多，耗时短(归功于前向最大匹配替代了直接索引混淆词典)

4、SoftMaskedBert：https://github.com/hiyoung123/SoftMaskedBert

对论文Soft-Masked Bert 的复现：https://arxiv.org/pdf/2005.07421.pdf

使用判别模型BiGRU+纠错模型BERT，实现端到端的纠错。

5、bert_chinese：https://github.com/JohanyCheung/bert_chinese/tree/master/corrector

直接预训练的bert模型实现中文的文本纠错，可参照学习bert如何做纠错任务

二、英文：

1、SoftMaskedBert：https://github.com/hiyoung123/SoftMaskedBert

更改训练集和测试集，即可应用于其他语言拼写纠错

2、xfspell：https://github.com/mhagiwara/xfspell

基于Transformer的拼写纠错。原理类似于机器翻译，解决了纠错时输入和输出必须保持一致的问题。通过交换输入数据和输出数据，生成大量包含错别字的文本数据。

3、spelling-correction：https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction

基于bert预训练模型的拼写纠错(需指定错误位置)

4、spellcorrect：https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py

基于编辑距离的英文拼写纠错

weixin_39895684

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
中文拼写纠错_中英文拼写纠错开源框架梳理

一、中文：1、Pycorrector：https://github.com/shibing624/pycorrector当前主流的中文纠错框架，支持规则和端到端模型 2、FASPell：https://github.com/iqiyi/FASPell/blob/master论文：https://www.aclweb.org/anthology/D19-5522.pdf使用bert进行预训练+微调...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。