1)安装
https://pypi.org/project/jieba/#files
解压,执行
Python setup.py install
或 将解压后的 jieba 目录放置于当前目录或者 site-packages 目录
2)jieba 特性
支持三种分词模式
1、 精确模式,试图将句子最精确地切开,适合文本分析;
2 、全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
3、 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
4、支持繁体分词
5、支持自定义词典
jieba.enable_parallel(5) #开启并行分词模式,参数为并发执行的进程数
jieba.disable_parallel()#关闭并行分词模式
str='python的正则表达式是好用的'
cut_all=jieba.cut(str,cut_all=True) #全模式
cut_defaul=jieba.cut(str) #精确模式
cut_search=jieba.cut_for_search(str)#搜索模式
jieba.load_userdict('userdict.txt')#加载自定义字典
stop_word_file='stop_file.txt'
jieba.analyse.set_stop_words(stop_word_file)#设置停止词
str='我在荣超大夏'
word='荣超大夏'
jieba.suggest_freq(word,tune=True)# 动态调节单个词语的词频,使其(或不能)被分出来
a=jieba.cut(str)
Tokenize:返回词语在原文的起止位置
注意,输入参数只接受 unicode
result=jieba.tokenize(u'计的分词方法则基于字和')
for i in result:
print(i)
词性标注:
jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
如:
import jieba.posseg
str='我在荣超大夏'
a=jieba.posseg.cut(str)
for i in a:
print(i)