1.运行环境
python 3.6.4
2.思路
大致思路与正向相同,可参考我的上一篇博客。
3.代码实现
import codecs
#获得分词字典,存储为字典形式
f1 = codecs.open('./corpus/WordList.txt', 'r', encoding='utf8')
dic = {}
while 1:
line = f1.readline()
if len(line) == 0:
break
term = line.strip() #去除字典两侧的换行符,避免最大分词长度出错
dic[term] = 1
f1.