结巴分词jieba添加自定义词典

结巴分词添加自定义词典,有时候很有必要。比如下面这段话:

test_text = """
我们的健康码也是绿色的,
 这凭什么就限制我们的就医!

"""

如果使用默认的分词,那么,“健康码”这个词会分成“健康”和“码”

这里可以使用词典方式,添加自定义词典。

新建一个txt文件,在文件里输入“健康码”

以utf-8形式保存,这里使用pycharm,默认就是utf8.不用管。

然后使用

jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))

wk_dir是词典放置的目录,词典文件名默认为jiebaDict.txt.

再一次分词,就可以得到这个结果。

如果不想用这个词作为一整个词,下次分词时,还是想,健康, 和码分开,那么就使用

jieba.del_word("健康码")

那么自定义词典的文件就没有这个词。下次分词还是会按照默认的方式,分成“健康”,“码”

如果还想添加其他的,那么可以打开jiebaDict.txt文件,一行一行添加想要添加的自定义词典。

或者使用

jieba.add_word("凭什么")

自定义词典,应该是每次使用都需要手动加载,不然不会发挥作用。

  • 11
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: jieba是一个开源的中文分词工具,可以将一段中文文本按照词语的划分进行分词。jieba工具在分词时会根据默认的词典进行划分,但有时候默认的词典可能不能满足特定领域或者自定义词汇的需求,这时候就可以使用jieba自定义词典功能。 jieba常用的自定义词典功能可以帮助用户根据自己的需要添加一些特定的词汇,使得jieba能够更好地根据这些词汇进行分词。自定义词典通常包括两个文件,一个是用户自定义词典文件(可以是纯文本或者Excel表格等格式),另一个是结巴分词的默认词典,在分词时会同时参考两个词典。 用户可以根据需要自行添加词汇到自定义词典文件中,每个词汇一行,格式为:词语 词频 词性。其中,词频和词性是可选项,如果没有可以不填。用户可以根据需求设置不同的词频和词性,词频可以用来影响分词结果的优先级,词性可以用来进行词性标注等。 当用户将自定义词典文件添加jieba分词工具中后,jieba在进行分词时会优先参考自定义词典中的词汇,从而更准确地进行分词。这样,用户可以通过添加自定义词典来解决一些jieba默认分词结果不准确的问题,提高分词的准确度。 综上所述,jieba常用的自定义词典功能可以帮助用户添加特定的词汇,提高分词的准确性和适应性,使得分词结果更符合用户的需求。 ### 回答2: jieba是一个常用的Python中文分词库。它可以对中文文本进行分词处理,将句子中的每个词语切分开来。jieba的分词效果很好,但有时候会出现一些分词错误或漏切的情况。 为了解决这个问题,jieba提供了自定义词典的功能。自定义词典可以根据用户的需求,添加额外的词语,从而提高分词的准确性。用户可以在自定义词典添加常用的专有名词、品牌名、地名等,让jieba在分词过程中将这些词语切分出来。 使用jieba自定义词典非常简单。用户只需要在文件中按照一定的格式添加自定义词语,并将该文件作为参数传入jieba的初始化函数中即可。自定义词典文件的格式为每个词语一行,每行包含三个字段,分别是词语、词频和词性。词频和词性可以省略,如果省略则默认为5和n(普通名词)。 自定义词典添加可以根据业务的需要进行灵活调整。并且jieba还提供了动态添加和删除词语的功能,可以在运行时根据实际情况来动态更新自定义词典。 总而言之,jieba常用的自定义词典功能可以帮助我们解决分词错误和漏切的问题,提高分词的准确性。通过合理的添加自定义词语,可以适应不同的应用场景,从而更好地满足中文分词的需求。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值