文本纠错 - pycorrector（零）

q136446838

已于 2023-08-31 11:07:34 修改

阅读量205

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

于 2023-08-29 14:01:00 首次发布

本文链接：https://blog.csdn.net/q136446838/article/details/132451082

版权

4 篇文章 1 订阅

订阅专栏

0 概要

github链接: link
pycorrector: 中文文本纠错工具。支持中文音似、形似、语法错误纠正，python3开发。

常见错误类型：
图片来源于官网

TODO

可以归纳为两类方法：

依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。

中文纠错分为两步走，第一步是错误检测，第二步是错误纠正；
错误检测部分先通过结巴中文分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，这样从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，形成疑似错误位置候选集；
错误纠正部分，是遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，然后通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。

pycorrector实现了ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错，并在SigHAN数据集评估各模型的效果。

版本号：0.5.0
pycorrector目录结构

另有jcorrector( link)是其他人仿写pycorrector的java包。其中实现了规则方法和macbert。不过其中细节有修改。

关注