NLP中的并行分词方法

目前并行分词只能在linux系统下支持,并行分词能显著提高我们的分词速度,在数据量很大时效果尤其明显,

下面给出我在一篇作文中进行并行分词和常规分词的时间的比较

#encoding=utf-8
import sys
import time
import jieba

jieba.enable_parallel()
content = open(u'/home/yang/下载/zuowen.txt',"r").read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))
t2 = time.time()
tm_cost = t2-t1
print('并行分词速度为 %s bytes/second' % (len(content)/tm_cost))

jieba.disable_parallel()
content = open(u'/home/yang/下载/zuowen.txt',"r").read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))
t2 = time.time()
tm_cost = t2-t1
print('非并行分词速度为 %s bytes/second' % (len(content)/tm_cost))


输出的结果分别为:并行分词速度为 375263.146396 bytes/second
非并行分词速度为 173770.15598 bytes/second

并行分词的速度明显快两倍多。所以当文档特别大时并行分词是一种很好的选择。


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值