哈工大分词器中自定义词典的使用

本文介绍了如何在哈工大LTP分词器中使用自定义词典,通过对比加入和未加入自定义词典的效果,展示了自定义词典对分词准确性的影响。
摘要由CSDN通过智能技术生成

首先在/usr/local/ltp下放置一个词典,我为了测试就叫userdict.txt ,里面有三个词:
解空间
深度优先
根节点

先测试加入自定义词典时的效果:

py@ubuntu:/usr/local/ltp$ python
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> import os
>>> from pyltp import Segmentor
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> model_path = "/usr/local/ltp/cws.model"
>>> user_dict = "/usr/local/ltp/userdict.txt"
>>> segmentor = Segmentor()
>>> segmentor.load_with_lexicon(model_path, user_dict)
[INFO] 2017-09-04 23:23:24 loaded 3 lexicon entries
>>> s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值