错别字识别数据构建

最新推荐文章于 2023-02-17 15:00:54 发布

Happy丶lazy

最新推荐文章于 2023-02-17 15:00:54 发布

阅读量859

点赞数

分类专栏：项目文章标签： python 错别字

本文链接：https://blog.csdn.net/qq_39309652/article/details/121946062

版权

错别字识别拼音转汉字数据集构造随机替换历史关头

关键词由CSDN通过智能技术生成

项目专栏收录该内容

5 篇文章

订阅专栏

本文介绍了如何通过Python脚本自动生成用于错别字识别的数据集，通过处理文本、转换拼音并随机替换，模拟实际场景中的误输入。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做错别字识别的项目，数据集需要自己构造，于是写了一个小脚本。

import random
from pypinyin import lazy_pinyin
from Pinyin2Hanzi import DefaultDagParams
from Pinyin2Hanzi import dag
text_list = ['每到重要历史关头，我们党都会总结党的历史，从中吸取历史智慧，掌握历史主动', '四个历史时期各自承担前后相继的历史任务：救国、立国、富国、强国']
for text in text_list:
    text_list = []
    # 去掉文本中的特殊符号，因为特殊符号没有拼音
    for num, char in enumerate(text):
        if (char >= u'\u4e00') and (char <= u'\u9fa5'):
            text_list.append(num)
    # 将每个字的序号保存进行随机抽取
    random_char = random.choice(text_list)
    # 汉字转拼音
    char_py = lazy_pinyin(text[random_char])
    # 将拼音转换为字
    dagParams = DefaultDagParams()
    result = dag(dagParams, char_py, path_num=4, log=True)
    result_list = []
    for item in result:
        if item.path[0] != text[random_char]:
            result_list.append(item.path[0])
    results = ''.join(result_list)
    # 将五个相同拼音的随机取一个
    error_char = random.choice(results)
    print('{0}------->{1}'.format(text[random_char],error_char))
    cal_text = text
    print(cal_text)
    cal_text_list = list(cal_text)
    cal_text_list[random_char] = error_char
    cal_text_results = ''.join(cal_text_list)
    print(cal_text_results)

输出：
关------->官
每到重要历史关头，我们党都会总结党的历史，从中吸取历史智慧，掌握历史主动
每到重要历史官头，我们党都会总结党的历史，从中吸取历史智慧，掌握历史主动
自------->资
四个历史时期各自承担前后相继的历史任务：救国、立国、富国、强国
四个历史时期各资承担前后相继的历史任务：救国、立国、富国、强国