分词工具 结巴个人词典构造

本文介绍了如何使用jieba分词工具加载自定义词典以提高新词识别的准确率,并详细说明了词频设置的原则和动态调整词频的方法,以解决歧义问题。同时,文章还探讨了jieba词典中词频的用途和词性标注功能。
摘要由CSDN通过智能技术生成

结巴

结巴

JIEBA项目github地址

训练数据

载入词典

开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率
用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。
例如:

创新办 3 i
云计算 5
凱特琳 nz
台中

调整词典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。

注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。

代码示例:

print(‘/’.join(jieba.cut(‘如果放到post中将出错。’, HMM=False)))
如果/放到/post/中将/出错/。
jieba.suggest_freq((‘中’, ‘将’), True)
494
print(‘/’.join(jieba.cut(‘如果放到post中将出错。’, HMM=False)))
如果/放到/post/中/将/出错/。
print(‘/’.join(jieba.cut(‘「台中」正确应该不会被切开’, HMM=False)))
「/台/中/」/正确/应该/不会/被/切开
jieba.suggest_freq(‘台中’, True)
69
print(‘/’.join(ji

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值