python中jieba lcut_Python中中文分词库的基本使用,python,jieba

1、安装

一般直接

pip install 库名

即可进行第三方库安装

pip install 库名

切换安装源可避免超时问题

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名

2、jieba简介

jieba是基于python的中文分词工具,支持 3 种分词模式:精确模式、全模式、搜索引擎模式;

1)精确模式:将句子最精确的分开,适合文本分析(无冗余)

2)全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)

3)搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)

cut_all参数默认为False,所有使用cut方法时默认为精确模式

3、jieba分词

可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者均返回一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语,或

使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

import jieba

sentence = """得不到的永远在骚动

被偏爱的都有恃无恐"""

seg_list1 = jieba.cut(sentence, cut_all=False)

print("【精确模式】" + "/".join(seg_list1))

print(type(seg_list1))

seg_list2 = jieba.cut(sentence, cut_all=True)

print("【全模式】" + "/".join(seg_list2))

print(type(seg_list2))

seg_list3 = jieba.cut_for_search(sentence)

print("【搜索引擎模式】" + "/".join(seg_list3))

print(type(seg_list3))

seg_list4 = jieba.lcut(sentence, cut_all=False)

print("【精确模式】:{0} ".format(seg_list4))

print(type(seg_list4))

seg_list5 = jieba.lcut_for_search(sentence)

print("【搜索引擎模式】:{0}".format(seg_list5))

print(type(seg_list5))

结果:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxOTY5Mjg3,size_16,color_FFFFFF,t_70

4、载入字典

jieba.load_userdict(file_name) # 载入自定义词典,,其中file_name 为文件类对象或自定义词典的路径。

jieba.add_word(word, freq=None, tag=None) # 在程序中动态修改词典

jieba.del_word(word)

jieba.suggest_freq(segment, tune=True) # 调节单个词语的词频,使其能/不能被分词开

5、关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False)

#sentence 为待提取的文本

# topK 表示返回最大权重关键词的个数,None表示全部

# withWeight表示是否返回权重,是的话返回(word,weight)的list

# allowPOS仅包括指定词性的词,默认为空即不筛选。

jieba.analyse.textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False)

# 与TF-IDF方法相似,但是注意allowPOS有默认值,即会默认过滤某些词性。

jieba.tokenize(test_sent) Tokenize:返回词语在原文的起始位置

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值