python通过结巴（jieba）实现中文分词-＞英文转换

菜鸟001号

于 2024-04-16 17:44:28 发布

阅读量407

点赞数 2

文章标签：中文分词自然语言处理 python

本文链接：https://blog.csdn.net/qq_37189286/article/details/137832662

版权

本文介绍了项目中对中文词汇进行标准化处理的需求，通过结巴分词实现中文切分，检查词根是否在已有字典中，确保命名一致性。使用Python脚本加载自定义分词词根和中英文对应关系，优化了数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求背景：

项目需要将公司字典标准化处理，将中文对应的英文单词统一标准化梳理。比如订单可能在业务库被命名为:order、orders。在接入数仓后，要做字典（词根）标准化梳理。但是公司表众多，每个表一个一个去做字典标准化梳理太过复杂（每个词根要转换成英文，然后沉淀到字典上，每个新梳理的字典/词根都要看是否已经被沉淀过，已有字典/词根是否可以复用...）。

我们可以通过结巴分词实现中文切分，然后识别切分后的中文在不在已有词典中，如果存在则转换为英文，如果不存在则保留中文，中间用"_"分隔开。为了优化结巴分词的效果可以把我们整理的字典输入到结巴分词的字典中。

准备工作：

1. 已梳理部分常用中文分词如：

文件名：data2

用户

2. 已梳理中英文对应关系：

data

用户        user

python 实现

1 加载自定义中文切分词根

import jieba
jieba.load_userdict("data2") # 加载自定义切割中文

2 读取字典

    with open("data", "r+", encoding="utf-8") as f:
        datas = f.readlines()

3 对比词根字典中英文是否命名唯一

col_dict_cn = dict()
    col_dict_en = dict()

    for data in datas:
        # print("11")
        cn = data.replace("\n", "").split("\t")[0]
        en = data.replace("\n", "").split("\t")[1]

        ## 判断是否有中文含义相同，但是英文含义不同
        if col_dict_cn.get(cn):
            if en == col_dict_cn.get(cn):
                pass
            else:
                print(cn + "存在中文相同英文不同数据")
        else:
            col_dict_cn[cn] = en
        ## 判断是否有英文含义相同，但是中文含义不同

        if col_dict_en.get(en):
            if cn == col_dict_en.get(en):
                pass
            else:
                print(en + "存在英文相同中文不同数据")
        else:
            col_dict_en[en] = cn

    print(col_dict_cn)

    print(col_dict_en)

4 分词后并转换成英文，并打印


    cols = ['用户反馈问题']

    for col in cols:
        words = jieba.cut(col.replace("(","").replace(")",""))


        str =""
        str2= ""
        for word in words:
            if col_dict_cn.get(word):
                str += col_dict_cn.get(word).upper()
            else:
                str += word.upper()
            str += "_"
            str2 += word
            str2+="_"

        print(str2[:len(str2)-1]+"\t"+str[:len(str)-1].lower())

用户_反馈_问题 user_反馈_问题