Tokenize:返回词语在原文的起止位置
注意,输入参数只接受 unicode
示例代码
result = jieba.tokenize(u'永和服装饰品有限公司') #mode='search' 为搜索模式
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
- 1
- 2
- 3
输出结果
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限公司 start: 6 end:10
并行分词
原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升
基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows
用法:只要在开始分词之前调用如下代码就可以实现并行分词
jieba.enable_parallel(4)# 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
- 1
- 2
- 3
实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。
注意:并行分词仅支持默认分词器 jieba.dt 和jieba.posseg.dt。