jieba之sedict(自定义字典)

代码:

import jieba

string = "李小福是创新办主任也是云计算方面的专家"

# 精确模式分词
cut_result = jieba.cut(string)
print("===" * 20)
print("/".join(cut_result))

# 创新办没有识别出来
# 用自定义词典来定义创新办
# 创新办 3 i
jieba.load_userdict("userdict.txt")
cut_result = jieba.cut(string)
print("===" * 20)
# 已经识别出来了
print("/".join(cut_result))
print("===" * 20)
# 搜索模式
print(jieba.lcut_for_search(string))


# 具有一定的新词识别能力
string = "李老福是创新办主任也是云计算方面的专家"
cut_result = jieba.cut(string)
print("===" * 20)
print("/".join(cut_result))

运行结果:

============================================================
李小福/是/创新办/主任/也/是/云/计算/方面/的/专家
============================================================
李小福/是/创新办/主任/也/是/云/计算/方面/的/专家
============================================================
['李小福', '是', '创新', '创新办', '主任', '也', '是', '云', '计算', '方面', '的', '专家']
============================================================
李老福/是/创新办/主任/也/是/云/计算/方面/的/专家

代码:

# 动态调整词的方法
# 希望 “小王仁庄” 不被分开, 如今被分开了
string = "我住在小王仁庄"
cut_result = jieba.cut(string)
print("===" * 20)
print("/".join(cut_result))

# 添加到自定义词典
jieba.add_word("小王仁庄")
cut_result = jieba.cut(string)
print("===" * 20)
# 哈哈,分隔开了吧
print("/".join(cut_result))


# 词频和词性
# 如果词频太小也不会被分开
jieba.add_word("小王仁庄", freq=0.1, tag=None)
cut_result = jieba.cut(string)
print("===" * 20)
# 怎么样,没有分开
print("/".join(cut_result))


# 那么,该如何寻找词频呢?
print("===" * 20)
# 词频为1
print(jieba.suggest_freq("小王仁庄", tune=True))

# 将词频设置为1看看可不可以分开
jieba.add_word("小王仁庄", freq=1, tag=None)
cut_result = jieba.cut(string)
print("===" * 20)
# 成功分开
print("/".join(cut_result))

运行结果:

============================================================
我/住/在/小王仁庄
============================================================
我/住/在/小王仁庄
============================================================
我/住/在/小/王仁庄
============================================================
1
============================================================
我/住/在/小王仁庄

代码:

# 删除字典中的一些词
jieba.del_word("小王仁庄")
# 看看还能不能识别出来
cut_result = jieba.cut(string)
print("/".join(cut_result))

运行结果:

我/住/在/小/王仁庄

代码:

# 总结

# 自定义词典中:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒
# 李小福 2 nr
# file_name为文件类对象或自定义词典的路径
jieba.load_userdict(file_name)

# 动态添加自定义词
jieba.add_word(word, freq=None, tag=None)

# 动态删除自定义词
jieba.del_word(word)

# 找到合适词频
jieba.suggest_freq(segment, tune=True)
jieba字典可以在其GitHub仓库中下载。jieba是一个支持中文分词的Python库,它支持三种分词模式:精确模式、全模式和搜索引擎模式。你可以根据自己的需求选择使用其中一种模式进行分词。此外,jieba还支持自定义词典,并且可以用于统计词频等操作。 要下载jieba字典,你可以前往jieba的GitHub仓库地址,从中下载所需的字典文件。如果你还没有安装jieba库,可以使用命令行输入"pip install jieba"进行自动安装。 在下载jieba字典后,你可以使用jieba库的相关函数来进行分词和处理文本。例如,可以使用jieba.lcut函数对文本进行精确分词,并使用统计方法来计算词频。你可以根据词频来分析文本中各个词语的出现频次。 希望这个回答对你有帮助。如果你还有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [少年街霸图标下载](https://download.csdn.net/download/weixin_38724611/13774363)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python学习笔记之利用jieba库进行词频分析](https://blog.csdn.net/plasma007/article/details/102642723)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值