理解jieba的并行分词模式（源码分析）

最新推荐文章于 2019-11-18 19:33:45 发布

姬香

最新推荐文章于 2019-11-18 19:33:45 发布

阅读量4.4k

点赞数 1

分类专栏： Python NLP

本文链接：https://blog.csdn.net/qq_18310041/article/details/89087508

版权

当开启并行分词模式时候，跑了一晚上代码，第二天早上发现还没有跑完。于是就觉得很奇怪！部分代码如下：m = 0contents = []for i in df['content']: i = i.strip() # # 匹配中文标点符号 String str="[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\u...

摘要由CSDN通过智能技术生成

当开启并行分词模式时候，跑了一晚上代码，第二天早上发现还没有跑完。于是就觉得很奇怪！部分代码如下：

m = 0
contents = []
for i in df['content']:
    i = i.strip()
    # # 匹配中文标点符号 String str="[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]"
    # [\u4E00-\u9FFF]+$ 匹配简体和繁体
    # [\u4E00-\u9FA5]+$ 匹配简体
    line = ''.join(re.findall(u'[\u4e00-\u9fff\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]', str(i)))

    # 开启并行分词模式，参数为并发执行的进程数
    jieba.enable_parallel(100)
    line = [word for word in jieba.cut(str(line), cut_all=False)]
    # 关闭并行分词模式
    jieba.disable_parallel()
    contents.append(line)
    m += 1
    print(m)
print(len(contents))

注释掉这两行代码之后，速度一下子飙升！

# 开启并行分词模式，参数为并发执行的进程数
jieba.enable_parallel(100)
# 关闭并行分词模式
jieba.disable

最低0.47元/天解锁文章

姬香

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
理解jieba的并行分词模式（源码分析）

当开启并行分词模式时候，跑了一晚上代码，第二天早上发现还没有跑完。于是就觉得很奇怪！部分代码如下：m = 0contents = []for i in df['content']: i = i.strip() # # 匹配中文标点符号 String str="[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\u...
复制链接

扫一扫