jieba分词

最新推荐文章于 2023-09-28 21:06:24 发布

hahajing369

最新推荐文章于 2023-09-28 21:06:24 发布

阅读量842

点赞数

参考：参考：https://github.com/fxsjy/jieba

安装：

Python 2.x 下的安装

全自动安装：cmd下直接运行代码：easy_install jieba 或者 pip install jieba

半自动安装：先下载http://pypi.python.org/pypi/jieba/ ，解压，cmd，cd进入文件存放的文件夹下，运行代码：python setup.py install

手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录

如何引用jieba包？打开Python IDE，输入代码：import jieba 来引用（第一次import时需要构建Trie树，需要几秒时间）

1.最原始的功能——分词：

#方法就是函数

jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制是否采用全模式，用法：cut_all=True，或者cut_all=False 3）HMM参数用来控制是否使用 HMM 模型，用法：HMM=True，或者HMM=False

jieba.cut_for_search方法接受两个参数：需要分词的字符串，是否使用 HMM 模型，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

代码示例( 分词 )

#encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精确模式

seg_list = jieba.cut("我们中出了一个叛徒", HMM=True)
print ",".join(seg_list)
seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式print ", ".join(seg_list)seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") #搜索引擎模式print ", ".join(seg_list)

Output:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【HMM模式】：我们/ 中出/ 了/ 一个/ 叛徒

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

2.添加用户词典进行分词

载入词典

开发者可以指定自己自定义的词典，以便包含jieba自带词库（Python安装目录里→Lib→site-packages→jieba包→dict.txt）里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率
用法1：Python IDE中编写代码 jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频（可省略），最后为词性（可省略），用空格隔开
范例：
之前：李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
加载自定义词库后：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
自定义词典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py

代码举例：
jieba.load_userdict("D:/1/user.txt")#导入用户自定义词典，user.txt要以utf-8保存

调整词典

用法2：使用 `add_word(word, freq=None, tag=None)` 和 `del_word(word)` 可在程序中动态修改已经建好的用户词典.txt。
直接代码里写这句：jieba.add_word('凱特琳')
3.关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

代码示例（关键词提取）

https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径

用法： jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
自定义语料库示例：https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big
用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py

关键词提取所使用停止词（Stop Words）文本语料库可以切换成自定义语料库的路径

用法： jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
自定义语料库示例：https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt
用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py

关键词一并返回关键词权重值示例

用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py

4. 词性标注

>>> import jieba.posseg as pseg
>>> words = pseg.cut("我爱北京天安门")
>>> for word, flag in words:
...    print('%s %s' % (word, flag))
...
我 r
爱 v
北京 ns
天安门 ns

hahajing369

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
jieba分词

安装：Python 2.x 下的安装全自动安装：cmd下直接运行代码：easy_install jieba 或者 pip install jieba半自动安装：先下载http://pypi.python.org/pypi/jieba/ ，解压后cmd，cd进入文件存放的文件夹下，运行代码：python setup.py install打开Python IDE，输入代码：im
复制链接

扫一扫