python结巴分词下载_jieba: 结巴中文分词做最好的Python分词组件

最新推荐文章于 2023-06-09 06:04:10 发布

weixin_39787606

最新推荐文章于 2023-06-09 06:04:10 发布

阅读量676

点赞数

文章标签： python结巴分词下载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39787606/article/details/111440500

版权

jieba"结巴"中文分词：做最好的Python中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation.Feature支持...

摘要由CSDN通过智能技术生成

jieba

"结巴"中文分词：做最好的Python中文分词组件

"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.

Scroll down for English documentation.

Feature

支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

在线演示

(Powered by Appfog)

Python 2.x 下的安装

全自动安装：easy_install jieba 或者 pip install jieba

半自动安装：先下载http://pypi.python.org/pypi/jieba/ ，解压后运行python setup.py install

手动安装：将jieba目录放置于当前目录或者site-packages目录

通过import jieba 来引用

Python 3.x 下的安装

目前master分支是只支持Python2.x 的

git clone https://github.com/fxsjy/jieba.git

git checkout jieba3k

python setup.py install

Algorithm

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

功能 1)：分词

jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式

jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

代码示例( 分词 )

#encoding=utf-8

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print "Full Mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print "Default Mode:", "/ ".join(seg_list) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式

print ",

最低0.47元/天解锁文章

weixin_39787606

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python结巴分词下载_jieba: 结巴中文分词做最好的Python分词组件

jieba"结巴"中文分词：做最好的Python中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation.Feature支持...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。