[python]python jieba 模块

最新推荐文章于 2024-05-13 22:47:04 发布

just-do-it-zzj

最新推荐文章于 2024-05-13 22:47:04 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python jieba 分词

本文链接：https://blog.csdn.net/henku449141932/article/details/81188776

版权

37 篇文章 0 订阅

订阅专栏

1）安装

解压，执行

Python setup.py install

或将解压后的 jieba 目录放置于当前目录或者 site-packages 目录

2）jieba 特性

支持三种分词模式

1、精确模式，试图将句子最精确地切开，适合文本分析；

2 、全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

4、支持繁体分词

5、支持自定义词典

jieba.enable_parallel(5) #开启并行分词模式，参数为并发执行的进程数

jieba.disable_parallel()#关闭并行分词模式

str='python的正则表达式是好用的'

cut_all=jieba.cut(str,cut_all=True) #全模式

cut_defaul=jieba.cut(str) #精确模式

cut_search=jieba.cut_for_search(str)#搜索模式

jieba.load_userdict('userdict.txt')#加载自定义字典

stop_word_file='stop_file.txt'

jieba.analyse.set_stop_words(stop_word_file)#设置停止词

str='我在荣超大夏'

word='荣超大夏'

jieba.suggest_freq(word,tune=True)# 动态调节单个词语的词频，使其（或不能）被分出来

a=jieba.cut(str)

Tokenize：返回词语在原文的起止位置

注意，输入参数只接受 unicode

result=jieba.tokenize(u'计的分词方法则基于字和')

for i in result:

    print(i)

词性标注：

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

如：

import jieba.posseg

str='我在荣超大夏'

a=jieba.posseg.cut(str)

for i in a:

    print(i)

关注

专栏目录