[python]python jieba 模块

1)安装

https://pypi.org/project/jieba/#files

解压,执行

Python setup.py install

或 将解压后的 jieba 目录放置于当前目录或者 site-packages 目录

 2)jieba 特性

支持三种分词模式

1、 精确模式,试图将句子最精确地切开,适合文本分析;

2 、全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

3、 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

4、支持繁体分词

5、支持自定义词典

jieba.enable_parallel(5) #开启并行分词模式,参数为并发执行的进程数

jieba.disable_parallel()#关闭并行分词模式
str='python的正则表达式是好用的'

cut_all=jieba.cut(str,cut_all=True) #全模式

cut_defaul=jieba.cut(str) #精确模式

cut_search=jieba.cut_for_search(str)#搜索模式
jieba.load_userdict('userdict.txt')#加载自定义字典
stop_word_file='stop_file.txt'

jieba.analyse.set_stop_words(stop_word_file)#设置停止词
str='我在荣超大夏'

word='荣超大夏'

jieba.suggest_freq(word,tune=True)# 动态调节单个词语的词频,使其(或不能)被分出来
a=jieba.cut(str)
Tokenize:返回词语在原文的起止位置
注意,输入参数只接受 unicode
result=jieba.tokenize(u'计的分词方法则基于字和')

for i in result:

    print(i)

词性标注:

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

如:

import jieba.posseg

str='我在荣超大夏'

a=jieba.posseg.cut(str)

for i in a:

    print(i)
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值