自定义词典
为了保证抽取的准确率,一般会选择自定义词典
形式
词 词频 词性
eg:
如果新加的词汇不知道该怎么设置的话,可以写成:词 3 n
添加形式
- 默认位置
位于:python目录下的jieba包中有个dict.txt。
例如我的就是,E:\Python36\Lib\site-packages\jieba - 定义文件目录
在自己的文件下进行词语的遍历
使用:jieba.add_word(‘词’)
加载自定义词库太慢
jieba启动需要完成两件事情:
- 加载默认词库
- 将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库
缓存文件: jieba.cache
位置:C:\Users\***\AppData\Local\Temp\jieba.cache
我们需要做的:
- 修改dict.txt文件:按照规范将要添加的词写入dict.txt中
- 删除jieba的本地缓存文件jieba.cache
cache文件位置:C:\Users\***\AppData\Local\Temp\jieba.cache - 删除缓存,重启jieba
这样就搞定啦~
效果
速率从600多秒提高到14秒,效果显著~