Python:使用pycorrector处理错字、纠正

简介:pycorrector是一个开源的中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3开发。pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

历史攻略:

AI语音测试点

Python:2行代码实现文字转语音

项目开源地址:

https://github.com/shibing624/pycorrector

安装:

pip install -U pycorrector

案例1:文本纠错

# -*- coding: utf-8 -*-
# time: 2023/02/18 11:26
# file: demo1.py
# 公众号: 玩转测试开发

import pycorrector

message = "机七学习是人工智能领遇最能体现智能的一个分知"
corrected_sent, detail = pycorrector.message(mes)
print(corrected_sent, detail)

运行结果:

(base) [root@ci4vyvxi572ysx2s write]# python demo1.py 
2023-02-18 11:53:18.515 | DEBUG    | pycorrector.detector:_initialize_detector:89 - Loaded language model: /root/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm
机器学习是人工智能领域最能体现智能的一个分知 [('机七', '机器', 0, 2), ('领遇', '领域', 9, 11)]

案例2:成语、专名纠错

# -*- coding: utf-8 -*-
# time: 2023/02/18 11:26
# file: demo2.py
# 公众号: 玩转测试开发
import sys

sys.path.append("..")
from pycorrector.proper_corrector import ProperCorrector

m = ProperCorrector()
x = [
    '报应接中迩来',
    '今天在拼哆哆上买了点苹果',
]

for i in x:
    print(i, ' -> ', m.proper_correct(i))

运行结果:

(base) [root@ci4vyvxi572ysx2s write]# python demo2.py 
报应接中迩来  ->  ('报应接踵而来', [('接中迩来', '接踵而来', 2, 6)])
今天在拼哆哆上买了点苹果  ->  ('今天在拼多多上买了点苹果', [('拼哆哆', '拼多多', 3, 6)])

案例3:英文拼写纠错

# -*- coding: utf-8 -*-
# time: 2023/02/18 11:26
# file: demo3.py
# 公众号: 玩转测试开发
import pycorrector

sent = "what happending? how to speling it, can you gorrect it?"
corrected_text, details = pycorrector.en_correct(sent)
print(sent, '=>', corrected_text)
print(details)

运行结果:

(base) [root@ci4vyvxi572ysx2s write]# python demo3.py 
2023-02-18 11:59:02.620 | DEBUG    | pycorrector.en_spell:_init:39 - load en spell data: /root/miniconda3/lib/python3.9/site-packages/pycorrector/data/en/en.json.gz, size: 30120
what happending? how to speling it, can you gorrect it? => what happening? how to spelling it, can you correct it?
[('happending', 'happening', 5, 15), ('speling', 'spelling', 24, 31), ('gorrect', 'correct', 44, 51)]

更多使用技巧详见官方文档。

  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值