python中jieba lcut_Python中中文分词库的基本使用,python,jieba

最新推荐文章于 2022-09-14 08:26:13 发布

weixin_39638057

最新推荐文章于 2022-09-14 08:26:13 发布

阅读量398

点赞数

文章标签： python中jieba lcut

1、安装

一般直接

pip install 库名

即可进行第三方库安装

pip install 库名

切换安装源可避免超时问题

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名

2、jieba简介

jieba是基于python的中文分词工具，支持 3 种分词模式：精确模式、全模式、搜索引擎模式；

1）精确模式：将句子最精确的分开，适合文本分析(无冗余)

2）全模式：句子中所有可以成词的词语都扫描出来，速度快，不能解决歧义(有冗余)

3）搜索引擎模式：在精确的基础上，对长词再次切分，提高召回率(有冗余)

cut_all参数默认为False,所有使用cut方法时默认为精确模式

3、jieba分词

可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词，两者均返回一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语，或

使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

import jieba

sentence = """得不到的永远在骚动

被偏爱的都有恃无恐"""

seg_list1 = jieba.cut(sentence, cut_all=False)

print("【精确模式】" + "/".join(seg_list1))

print(type(seg_list1))

seg_list2 = jieba.cut(sentence, cut_all=True)

print("【全模式】" + "/".join(seg_list2))

print(type(seg_list2))

seg_list3 = jieba.cut_for_search(sentence)

print("【搜索引擎模式】" + "/".join(seg_list3))

print(type(seg_list3))

seg_list4 = jieba.lcut(sentence, cut_all=False)

print("【精确模式】：{0} ".format(seg_list4))

print(type(seg_list4))

seg_list5 = jieba.lcut_for_search(sentence)

print("【搜索引擎模式】：{0}".format(seg_list5))

print(type(seg_list5))

结果：

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxOTY5Mjg3,size_16,color_FFFFFF,t_70

4、载入字典

jieba.load_userdict(file_name) # 载入自定义词典，，其中file_name 为文件类对象或自定义词典的路径。

jieba.add_word(word, freq=None, tag=None) # 在程序中动态修改词典

jieba.del_word(word)

jieba.suggest_freq(segment, tune=True) # 调节单个词语的词频，使其能/不能被分词开

5、关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False)

#sentence 为待提取的文本

# topK 表示返回最大权重关键词的个数，None表示全部

# withWeight表示是否返回权重，是的话返回(word,weight)的list

# allowPOS仅包括指定词性的词，默认为空即不筛选。

jieba.analyse.textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False)

# 与TF-IDF方法相似，但是注意allowPOS有默认值，即会默认过滤某些词性。

jieba.tokenize(test_sent) Tokenize：返回词语在原文的起始位置

weixin_39638057

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python中jieba lcut_Python中中文分词库的基本使用,python,jieba

1、安装一般直接pip install 库名即可进行第三方库安装pip install 库名切换安装源可避免超时问题pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名2、jieba简介jieba是基于python的中文分词工具，支持 3 种分词模式：精确模式、全模式、搜索引擎模式；1）精确模式：将句子最精确的分开，适合文本分析(无冗...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。