python有一个中文分词工具叫Jieba

Jieba是一个中文分词工具

Jieba是一个中文分词工具,它能够将中文文本切分成词语。以下是Jieba的入门用法:

  1. 安装jieba

您可以使用pip工具来安装jieba模块:

pip install jieba
  1. 分词

导入jieba模块,然后使用jieba.cut()函数将中文文本分词。jieba.cut()函数返回一个生成器,该生成器生成一个个分词结果。可以使用for循环来遍历分词结果。

import jieba

# 分词
text = '今天是个好日子,天气也不错。'
seg_list = jieba.cut(text)

# 遍历分词结果
for word in seg_list:
    print(word)

在这个例子中,我们使用jieba.cut()函数将文本分词,然后遍历分词结果并打印每个分词结果。

  1. 加载自定义词典可以通过add_word函数向jieba中添加自定义词汇。如果想要添加多个自定义词汇,可以将它们放在一个文本文件中,每个词汇占一行,然后使用load_userdict函数加载该文件。
自然语言处理
深度学习

jieba模块有一个默认的词典,但是有时候您可能需要加载自己的词典。您可以使用jieba.load_userdict()函数加载自定义词典。自定义词典应该是一个文本文件,每行包含一个词语和它的词频,用空格或制表符分隔。

import jieba

# 加载自定义词典
jieba.load_userdict('userdict.txt')

# 分词
text = '今天是个好日子,天气也不错。'
seg_list = jieba.cut(text)

# 遍历分词结果
for word in seg_list:
    print(word)

在这个例子中,我们使用jieba.load_userdict()函数加载自定义词典。自定义词典的文件名为“userdict.txt”。然后我们使用jieba.cut()函数将文本分词,并遍历分词结果。

  1. 关键词提取

jieba模块还提供了一个关键词提取的功能。可以使用jieba.analyse.extract_tags()函数从一段中文文本中提取关键词。该函数返回一个包含关键词的列表。

import jieba.analyse

# 关键词提取
text = '今天是个好日子,天气也不错。'
keywords = jieba.analyse.extract_tags(text)

# 打印关键词
print(keywords)

在这个例子中,我们使用jieba.analyse.extract_tags()函数从文本中提取关键词,并将结果存储在一个列表中,然后打印列表。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值