需求背景:
项目需要将公司字典标准化处理,将中文对应的英文单词统一标准化梳理。比如订单可能在业务库被命名为:order、orders。在接入数仓后,要做字典(词根)标准化梳理。但是公司表众多,每个表一个一个去做字典标准化梳理太过复杂(每个词根要转换成英文,然后沉淀到字典上,每个新梳理的字典/词根都要看是否已经被沉淀过,已有字典/词根是否可以复用...)。
我们可以通过结巴分词实现中文切分,然后识别切分后的中文在不在已有词典中,如果存在则转换为英文,如果不存在则保留中文,中间用"_"分隔开。为了优化结巴分词的效果可以把我们整理的字典输入到结巴分词的字典中。
准备工作:
1. 已梳理部分常用中文分词如:
文件名:data2
用户
2. 已梳理中英文对应关系:
data
用户 user
python 实现
1 加载自定义中文切分词根
import jieba
jieba.load_userdict("data2") # 加载自定义切割中文
2 读取字典
with open("data", "r+", encoding="utf-8") as f:
datas = f.readlines()
3 对比词根字典中英文是否命名唯一
col_dict_cn = dict()
col_dict_en = dict()
for data in datas:
# print("11")
cn = data.replace("\n", "").split("\t")[0]
en = data.replace("\n", "").split("\t")[1]
## 判断是否有中文含义相同,但是英文含义不同
if col_dict_cn.get(cn):
if en == col_dict_cn.get(cn):
pass
else:
print(cn + "存在中文相同英文不同数据")
else:
col_dict_cn[cn] = en
## 判断是否有英文含义相同,但是中文含义不同
if col_dict_en.get(en):
if cn == col_dict_en.get(en):
pass
else:
print(en + "存在英文相同中文不同数据")
else:
col_dict_en[en] = cn
print(col_dict_cn)
print(col_dict_en)
4 分词后并转换成英文,并打印
cols = ['用户反馈问题']
for col in cols:
words = jieba.cut(col.replace("(","").replace(")",""))
str =""
str2= ""
for word in words:
if col_dict_cn.get(word):
str += col_dict_cn.get(word).upper()
else:
str += word.upper()
str += "_"
str2 += word
str2+="_"
print(str2[:len(str2)-1]+"\t"+str[:len(str)-1].lower())
用户_反馈_问题 user_反馈_问题