结巴分词完全禁用默认词库（仅使用自定义词库）

最新推荐文章于 2024-03-22 12:59:16 发布

davidullua

最新推荐文章于 2024-03-22 12:59:16 发布

阅读量1.4k

点赞数

分类专栏： Python NLP 软件开发文章标签： java html javascript

本文链接：https://blog.csdn.net/davidullua/article/details/129116515

版权

软件开发同时被 3 个专栏收录

59 篇文章

订阅专栏

Python

9 篇文章

订阅专栏

NLP

1 篇文章

订阅专栏

文章讲述了如何在jieba分词库中使用自定义词库代替默认词库，以及如何通过设置HMM参数来禁用新词识别功能，以确保分词结果符合预期，特别是在处理敏感词场景时的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时候需要使用自定义的词库，不使用默认的词库。比如做敏感词分词时，完全禁用掉默认词库。

jieba 分词里面可以这样处理，通过set_dictionary 来设置自定义词库，从而禁用掉默认词库。



import jieba

jieba.set_dictionary("words.txt")
jieba.initialize()
seg_list = jieba.cut("helloworldfromshanghai你好世界")
print(", ".join(seg_list))

words.txt 的内容

hello 1
world 1

分词出来的内容是这样的：


hello, world, fromshanghai, 你, 好, 世界

世界还是被分成一个词语了。这个原因并不是词库没有生效，而是因为默认启用了 HMM的新词识别。

世界被识别成了一个词语。禁用 HMM 即可：

import jieba

jieba.set_dictionary("words.txt")

seg_list = jieba.cut("helloworldfromhangzhou你好世界", HMM=False)
print(", ".join(seg_list))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

davidullua

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python 中文文本分析实战：jieba分词+自定义词典补充+停用词词库补充+词频统计

大数据AI笔记

04-28

3万+

最近项目需要，实现文本的词频分析，折腾了几天才完成任务，有点成就感，最后整理总结一下这部分的内容，希望更多同僚受益。使用方法环境：Python3.6 安装结巴：pip install jiaba 下载停用词词典哈工大停用词词典构建补充词典userdict，后文详解运行文章最后面的完整代码先来认识jieba 参考简介 “结巴”中文分词：做最好的Python中...

使用jieba维护自定义词、停用词表

daizongxue的博客

11-23

2万+

对于文本处理来说，好的分词结果，是一切开始的基础。下面结合我的使用，简要说说使用jieba分词，如何添加、删除自定义词，以及使用停用词表，方便自己以后查阅。1 维护自定义词1.1 添加自定义词方法一：import jieba jieba.add_word("自定义词1") jieba.add_word("自定义词2")方法二：方法一需要我们手动一个个添加，当自定义词较多时，我们可以用下面的方法：im

参与评论您还未登录，请先登录后发表或查看评论

jieba 停用词表_使用 jieba 对文本进行分词

weixin_39625975的博客

12-03

8870

现在项目上有个需求：对根本原因进行预测。也就是说，给定根本原因以及其所对应的标签，通过机器学习算法对以后输入的根本原因进行自动化归类(或者说智能提示当前输入的根本原因属于哪个类别的)图1.数据库中的格式我想既然需要用到机器学习，肯定需要将数据清洗。所以第一步我先把根本原因字段进行分词处理，然后再将分好的词对应的类别转换成机器学习所需的格式，进行训练、预测处理。So 今天先把“根本原因”字段进行分词...

python使用结巴分词导入自己的分词词典

筱筱思的博客

07-06

2256

1.创建分词字典：创建一个TXT文件，文件一行为一个词（文档编码必须为UTF-8） dict.txt 青藏铁路责任编辑西藏自治区导入： import jieba jieba.load_userdict("./dict.txt") #导入自己的分词词典 word_list = jieba.cut(content) #对文本进行分词 print("|".join(word_list)) 2.使用add_word和suggest_freq: import jieba jieba.suggest_

使用jieba库进行移除停用词

AI_dataloads的博客

09-27

4053

text = "这是一个带有一些停用词的例句，我们想要将它们移除。读入-->分词-->导入停词表-->过滤-->输出。

结巴jieba分词中文分词停用词表2000条数据

08-03

结巴中文分词停用表，整合百度分词、哈工大等停用词表2000余条数据即拿即用，效果好，提升分词速度准确率。

NLP文本分类(二)结巴对Txt文件的分词及除去停用词

qq_41340170的博客

02-26

4981

结巴对Txt文件的分词及除去停用词安装结巴： Win+R输入CMD进入控制台，输入pip install jieba pip install jieba 如果提醒 pip版本不够，就根据它的提醒upgrade一下原文档：上代码：我用的是jupyter如果不知道如何进入请同上进入控制台pip install jupyter-notebook 安装完后控制台输入jupyter-noteb...

jieba中除了lcut，还有什么？

07-16

3. `jieba.add_word()`：该函数用于向结巴分词的词典中添加新的词语。可以通过该函数动态调整分词结果。 4. `jieba.del_word()`：该函数用于从结巴分词的词典中删除指定的词语。 5. `jieba.load_userdict()`：该...

用Wordcloud生成指定形状的词云图

wulishinian的博客

03-30

1万+

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式，通过词云生成的图片，我们可以更加直观的看出某篇文章的故事梗概。首先贴出一张词云图（以哈利波特小说为例）：在生成词云图之前，首先要做一些准备工作安装结巴分词库 pip install jieba Python中的分词模块有很多，他们的功能也都是大同小异，我们安装的结巴分词 是当前使用的最多的类型。下面我来简单介绍一...

python 读取excel并制作云图_Python实现Wordcloud生成词云图的示例

weixin_39796363的博客

03-01

3722

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式，通过词云生成的图片，我们可以更加直观的看出某篇文章的故事梗概。首先贴出一张词云图(以哈利波特小说为例)：在生成词云图之前，首先要做一些准备工作1.安装结巴分词库pip install jiebaPython中的分词模块有很多，他们的功能也都是大同小异，我们安装的结巴分词是当前使用的最多的类型。下面我来简单介绍一下结巴分词的...

jieba分词词典和停用词

03-28

利用jieba分词进行文本的处理这里面是jieba分词所需要的词典和停用词

结巴分词中一部分自定义字典

09-25

本人在使用jieba分词做项目时，锁整理出来的一部分被切分的词

中文停止词库

12-25

特整理中文停止词如下，方便开发。中文文本分词中先参考了官方给出的示例，官方给出的示例主要是对一条文本进行全分词和精确分词。

jieba+百度分词词库

07-13

jieba与百度的分词词库整合，加入了少量汽车行业的词语，剔除重复项之后剩余630406个词语。

利用python—jieba包进行分词和移除停用词

weixin_40405982的博客

12-19

1万+

利用python—jieba包进行分词和移除停用词用python-jieba包进行分词和移除停用词只做了最基础的学习，不知道是这一部分本来就比较简单还是我学习的都是最基础部分，总之学习路上过于顺利了，下面我将介绍在这一部分中学习到的知识。。。。。。首先：在pycharm中直接安装jieba包，然后新建python file即可实现下列代码 1.分词 ①基础部分：我大致了解了下面3种分词模式但是...

Python教程95：jieba去掉停用词+词频统计+tokenize分词位置的示例用法