pyhanlp使用自定义词典进行分词
ubuntu 18.04.4 LTS
python 3.6.9
pyhanlp 0.1.66
hanlp jar 1.7.8
hanlp data 1.7.8
在没有使用自定义词典时:
>>> from pyhanlp import HanLP
>>> print(pyhanlp.HanLP.segment('大数据技术'))
[大/a, 数据/n, 技术/n]
可以发现’大’和’数据’被分开了,而我们希望’大数据’是一个词,这时就需要我们自定义词典,将’大数据’放.
原创
2020-08-09 08:58:53 ·
1083 阅读 ·
0 评论