python jieba分词_从零开始学自然语言处理(八)—— jieba 黑科技

c8d18412fe522000e7695e009c8751ce.gif 小编喜欢用 jieba 分词,是因为它操作简单,速度快,而且可以添加自定义词,从而让 jieba 分出你想要分出的词,特别适用于特定场景的中文分词任务。

然鹅,万事都有两面性,jieba 分词这么好用,也难免有缺陷。
第一大缺陷就是它占用内存太大了。jieba 分词自带了一套默认的字典文件dict.txt,存放在xx/Lib/site-packages/jieba路径下,文件大小接近 5M。5M 看起来不大,但是当 jieba 将其读入并生成字典树时,占用的内存差不多就上涨到 150M。当然了,150M 我们也能忍受,但是当我们需要把 jieba 部署到真正的生产环境,可能会使用多个 jieba 对象,这个时候内存占用率就会成倍的增加。那么如何减小 jieba 内存的占用呢?

2d4e5a518322258ce84b8f6066bc176e.gif

结巴瘦身

既然 jieba 占据内存多的原因是字典树太大,那我们把dict.txt文件瘦身一下不就好了?事实上,j

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值