python替换同义词 jieba替换同义词
0 描述:
在构建基于知识图谱的问答系统过程中,我们发现 知识图谱对于实体的识别是非常敏感的, 如果用户输入的关键词 不对(哪怕只差一个词) 知识图谱就找不到对应的三元组。
所以我们打算现将用户的输入做一个预处理 , 将一些同义词 手动 转化为 知识图谱的中标准输入。
1构建同义词文件txt
构建同义词文件tongyici_tihuan.txt,每一个同义词列为一行,每行第一个为希望分隔后呈现的词语,后几个为第一个词的同义词,用tab键分隔,比如:
年休假 年假 年休
北京 北平 首都
在这个例子里“北平 首都”都会被替换为 “北京”
2代码
# encoding=utf-8
import jieba
def tihuan_tongyici(string1):
# tongyici_tihuan.txt是同义词