首先在/usr/local/ltp下放置一个词典,我为了测试就叫userdict.txt ,里面有三个词:
解空间
深度优先
根节点
先测试加入自定义词典时的效果:
py@ubuntu:/usr/local/ltp$ python
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> import os
>>> from pyltp import Segmentor
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> model_path = "/usr/local/ltp/cws.model"
>>> user_dict = "/usr/local/ltp/userdict.txt"
>>> segmentor = Segmentor()
>>> segmentor.load_with_lexicon(model_path, user_dict)
[INFO] 2017-09-04 23:23:24 loaded 3 lexicon entries
>>> s
哈工大分词器中自定义词典的使用
最新推荐文章于 2023-09-28 21:08:45 发布
本文介绍了如何在哈工大LTP分词器中使用自定义词典,通过对比加入和未加入自定义词典的效果,展示了自定义词典对分词准确性的影响。
摘要由CSDN通过智能技术生成