pkuseg的自定义词库过大会导致出现严重的分词BUG？

最新推荐文章于 2024-05-13 20:51:25 发布

10086_

最新推荐文章于 2024-05-13 20:51:25 发布

阅读量1.8k

点赞数

分类专栏： python 文章标签： pkuseg 分词

本文链接：https://blog.csdn.net/qq_29202513/article/details/86222682

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.背景说明

【前情提要】怀着异常激动的心情测试了一下北大刚发布的中文分词库,然后加载了之前整理的自定义词汇,发现出现了很严重的分词问题，希望有人能帮忙解决。

2. 上代码

   [IN] content = "我叫马化腾，我想学区块链,你说好不好啊，天青色等烟雨，而我在等你，月色被打捞器，晕开了结局"
		dict = utils.read("./dict.txt")
		pku = pkuseg.pkuseg(user_dict=dict)
		res = pku.cut(content)
		print(res)
  [OUT] loading model
		finish
		['我', '叫', '马', '化', '腾', '，', '我', '想', '学', '区', '块', '链', ',', '你', '说', '好', '不', '好', '啊', '，', '天', '青', '色', '等', '烟', '雨', '，', '而', '我', '在', '等', '你', '，', '月', '色', '被', '打', '捞', '器', '，', '晕', '开', '了', '结', '局']

3. 关键信息

dict.txt是之前项目整理的自定义词库,文件大小 108MB,词条数量 ≈ 673万,如图所示:
同样在jieba分词中不会出现这样的问题，分词结果正常

4. 问题回述

所以自定义词库内容过多,会导致出现分词异常?如何解决这个异常?

有更多问题也可以和本人直接沟通 微信:w63594021

10086_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
pkuseg的自定义词库过大会导致出现严重的分词BUG？

1.背景说明【前情提要】怀着异常激动的心情测试了一下北大刚发布的中文分词库,然后加载了之前整理的自定义词汇,发现出现了很严重的分词问题，希望有人能帮忙解决。2. 上代码 [IN] content = "我叫马化腾，我想学区块链,你说好不好啊，天青色等烟雨，而我在等你，月色被打捞器，晕开了结局" dict = utils.read("./dict.txt") pku = pkus...
复制链接

扫一扫