输入:
年假到底放几天?
期望输出:
年休假究竟放几天?
1. 同义词 synonymWords文件格式:
每行第一列为期望词,后几个为待替换的同义词。词和词之间用 tab 键分隔。
年休假 年假 年休
究竟 到底
2. Python 实现代码:
# encoding=utf-8
import jieba
def replaceSynonymWords(string1):
# 1读取同义词表,并生成一个字典。
combine_dict = {}
# synonymWords.txt是同义词表,每行是一系列同义词,用tab分割
for line in open("synonymWords.txt", "r", encoding='utf-8'):
seperate_word = line.strip().split("\t")
num = len(seperate_word)
for i in range(1, num):
combine_dict[seperate_word[i]] = seperate_word[0]
# 2提升某些词的词频,使其能够被jieba识别出来
jieba