python中文分词库jieba的基本使用

1、安装
一般直接pip install 库名即可进行第三方库安装

pip install 库名

切换安装源可避免超时问题

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名

2、jieba简介
jieba是基于python的中文分词工具,支持 3 种分词模式:精确模式、全模式、搜索引擎模式;
1)精确模式:将句子最精确的分开,适合文本分析(无冗余)
2)全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)
3)搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)
cut_all参数默认为False,所有使用cut方法时默认为精确模式

3、jieba分词
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者均返回一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语,或使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

import jieba

sentence = """得不到的永远在骚动 
被偏爱的都有恃无恐"""

seg_list1 = jieba.cut(sentence, cut_all=False)
print("【精确模式】" + "/".join(seg_list1))
print(type(seg_list1))

seg_list2 = jieba.cut(sentence, cut_all=True)
print("【全模式】" + "/".join(seg_list2))
print(type(seg_list2))

seg_list3 = jieba.cut_for_search(sentence)
print("【搜索引擎模式】" + "/".join(seg_list3))
print(type(seg_list3))

seg_list4 = jieba.lcut(sentence, cut_all=False)
print("【精确模式】:{0} ".format(seg_list4))
print(type(seg_list4))

seg_list5 = jieba.lcut_for_search(sentence)
print("【搜索引擎模式】:{0}".format(seg_list5))
print(type(seg_list5))

结果:
在这里插入图片描述

4、载入字典

jieba.load_userdict(file_name)  # 载入自定义词典,,其中file_name 为文件类对象或自定义词典的路径。
jieba.add_word(word, freq=None, tag=None) # 在程序中动态修改词典
jieba.del_word(word) 
jieba.suggest_freq(segment, tune=True) # 调节单个词语的词频,使其能/不能被分词开

5、关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False)
#sentence 为待提取的文本
# topK 表示返回最大权重关键词的个数,None表示全部
# withWeight表示是否返回权重,是的话返回(word,weight)的list
# allowPOS仅包括指定词性的词,默认为空即不筛选。
jieba.analyse.textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False)
# 与TF-IDF方法相似,但是注意allowPOS有默认值,即会默认过滤某些词性。

jieba.tokenize(test_sent) Tokenize:返回词语在原文的起始位置

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值