python通过结巴(jieba)实现中文分词->英文转换

本文介绍了项目中对中文词汇进行标准化处理的需求,通过结巴分词实现中文切分,检查词根是否在已有字典中,确保命名一致性。使用Python脚本加载自定义分词词根和中英文对应关系,优化了数据处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

需求背景:

        项目需要将公司字典标准化处理,将中文对应的英文单词统一标准化梳理。比如订单可能在业务库被命名为:order、orders。在接入数仓后,要做字典(词根)标准化梳理。但是公司表众多,每个表一个一个去做字典标准化梳理太过复杂(每个词根要转换成英文,然后沉淀到字典上,每个新梳理的字典/词根都要看是否已经被沉淀过,已有字典/词根是否可以复用...)。

        我们可以通过结巴分词实现中文切分,然后识别切分后的中文在不在已有词典中,如果存在则转换为英文,如果不存在则保留中文,中间用"_"分隔开。为了优化结巴分词的效果可以把我们整理的字典输入到结巴分词的字典中。

准备工作:

1. 已梳理部分常用中文分词如:

文件名:data2

用户

2. 已梳理中英文对应关系:

data

用户        user

python 实现

1 加载自定义中文切分词根

import jieba
jieba.load_userdict("data2") # 加载自定义切割中文

2 读取字典

    with open("data", "r+", encoding="utf-8") as f:
        datas = f.readlines()

3 对比词根字典中英文是否命名唯一

col_dict_cn = dict()
    col_dict_en = dict()

    for data in datas:
        # print("11")
        cn = data.replace("\n", "").split("\t")[0]
        en = data.replace("\n", "").split("\t")[1]

        ## 判断是否有中文含义相同,但是英文含义不同
        if col_dict_cn.get(cn):
            if en == col_dict_cn.get(cn):
                pass
            else:
                print(cn + "存在中文相同英文不同数据")
        else:
            col_dict_cn[cn] = en
        ## 判断是否有英文含义相同,但是中文含义不同

        if col_dict_en.get(en):
            if cn == col_dict_en.get(en):
                pass
            else:
                print(en + "存在英文相同中文不同数据")
        else:
            col_dict_en[en] = cn

    print(col_dict_cn)

    print(col_dict_en)

4 分词后并转换成英文,并打印


    cols = ['用户反馈问题']

    for col in cols:
        words = jieba.cut(col.replace("(","").replace(")",""))


        str =""
        str2= ""
        for word in words:
            if col_dict_cn.get(word):
                str += col_dict_cn.get(word).upper()
            else:
                str += word.upper()
            str += "_"
            str2 += word
            str2+="_"

        print(str2[:len(str2)-1]+"\t"+str[:len(str)-1].lower())

用户_反馈_问题    user_反馈_问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值