python结巴分词的缺点_Python的结巴分词处理大文件如何优化可提高速度？

最新推荐文章于 2023-06-08 04:40:58 发布

weixin_39833429

最新推荐文章于 2023-06-08 04:40:58 发布

阅读量630

点赞数 1

文章标签： python结巴分词的缺点

可以试试jieba_fast, 我觉得python jieba太慢，使用 c 重写了jieba分词库中的核心函数，提速jieba 50%左右

特点对两种分词模式进行的加速：精确模式，搜索引擎模式

利用cpython重新实现了 viterbi 算法，使默认带 HMM 的切词模式速度提升 60%左右

利用cpython重新实现了生成 DAG 以及从 DAG 计算最优路径的算法，速度提升 50%左右

基本只是替换了核心函数，对源代码的侵入型修改很少

使用import jieba_fast as jieba 可以无缝衔接原代码。

安装说明

代码目前对 Python 2/3 兼容，对*unix 兼容良好，对 windows 不能保证全自动安装：pip install jieba_fast

性能测试

测试机器 mbp17，i7，16G

测试过程：先按行读取文本《围城》到一个数组里，然后循环对《围城》每行文字作为一个句子进行分词。然后循环对围城这本书分词 50 次。分词算法分别采用 [开启 HMM 的精确模式] 、 [关闭 HMM 的精确模式] 、 [开启 HMM 的搜索引擎模式] 、 [开启 HMM 的搜索引擎模式] 具体测试数据如下：

可以看出在开启 HMM 模式下时间缩减了 60%左右，关闭 HMM 时时间缩减了 50%左右。

一致性测试

为了保证 jieba_fast 和 jieba 分词结果相同，做了如下测试。

对《围城》，《红楼梦》分词结果进行比较，其分词结果完全一致

---- Test of 围城 ----

nums of jieba results: 164821

nums of jieba_fast results: 164821

Are they exactly the same? True

----Test of 红楼梦 ----

nums of jieba results: 597151

nums of jieba_fast results: 597151

Are they exactly the same? True

鸣谢

"结巴"中文分词原作者: SunJunyi

weixin_39833429

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python结巴分词的缺点_Python的结巴分词处理大文件如何优化可提高速度？

可以试试jieba_fast, 我觉得python jieba太慢，使用 c 重写了jieba分词库中的核心函数，提速jieba 50%左右特点对两种分词模式进行的加速：精确模式，搜索引擎模式利用cpython重新实现了 viterbi 算法，使默认带 HMM 的切词模式速度提升 60%左右利用cpython重新实现了生成 DAG 以及从 DAG 计算最优路径的算法，速度提升 50%左右基本只是替...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。