python-jieba分词的安装和使用

最新推荐文章于 2023-11-29 00:03:35 发布

九指码农

最新推荐文章于 2023-11-29 00:03:35 发布

阅读量1.3k

点赞数

文章标签： python 结巴分词

本文链接：https://blog.csdn.net/qq_14950717/article/details/54317827

版权

最近在做文本分析的这部分，对于中文文本，要想对其使用机器学习的算法，必须得将这种非结构化的数据转化为结构化的并且计算机能够认识的结构，这中间就涉及到了中文分词，本人比较熟悉的开源的分词框架有python的结巴和IK分词，IK分词我曾经在elasticsearch里面使用过，现在开始学习jieba分词的使用。
安装：
安装python3.4
python下载地址
下载完毕后点击安装，然后配置环境变量，此处的环境变量配置：C:\Python34;和C:\Python34\Scripts
jieba-jieba3k和setuptools-5.7的安装，去下载相应的安装文件，解压，然后再命令行里面，进行安装，python install setup.py
安装很简单的。
下面介绍结巴分词的使用：
支持三种分词模式：
精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
import jieba

seg_list = jieba.cut(“我来到北京清华大学”, cut_all=True)
print (“Full Mode:”, “/ “.join(seg_list) )# 全模式

seg_list = jieba.cut(“我来到北京清华大学”, cut_all=False)
print (“Default Mode:”, “/ “.join(seg_list) )# 精确模式

seg_list = jieba.cut(“他来到了网易杭研大厦”) # 默认是精确模式
print (“, “.join(seg_list))

seg_list = jieba.cut_for_search(“小搜索明硕士毕业于中国科学院计算所，后在日本京都大学深造”) # 搜索引擎模式
print (“, “.join(seg_list))

Output:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
关键词提取
import jieba.analyse
jieba.analyse.extract_tags(sentence,topK) #setence为待提取的文本
关键词提取
topK为返回几个TF/IDF权重最大的关键词，默认值为20
词性标注
import jieba.posseg as pseg
words = pseg.cut(“我爱北京天安门”)
for w in words:
print w.word, w.flag
我 r
爱 v
北京 ns
天安门 ns

import jieba.analyse
jieba.load_userdict(“userdict1.txt”)
jieba.analyse.set_stop_words(“extra_dict/stop_words.txt”)
seg_list = jieba.cut(“香农在信息论中提出的信息熵定义为自信息的期望”, cut_all=True)
print(” “.join(seg_list))
print(‘关键词提取的结果如下：’)
tags = jieba.analyse.extract_tags(“香农在信息论中提出的信息熵定义为自信息的期望”, topK=10)
print(“,”.join(tags))

结巴分词的词性表：
Ag 形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。
a 形容词取英语形容词 adjective的第1个字母。
ad 副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an 名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b 区别词取汉字“别”的声母。
c 连词取英语连词 conjunction的第1个字母。
dg 副语素副词性语素。副词代码为 d，语素代码ｇ前面置以D。
d 副词取 adverb的第2个字母，因其第1个字母已用于形容词。
e 叹词取英语叹词 exclamation的第1个字母。
f 方位词取汉字“方”
g 语素绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。
h 前接成分取英语 head的第1个字母。
i 成语取英语成语 idiom的第1个字母。
j 简称略语取汉字“简”的声母。
k 后接成分
l 习用语习用语尚未成为成语，有点“临时性”，取“临”的声母。
m 数词取英语 numeral的第3个字母，n，u已有他用。
Ng 名语素名词性语素。名词代码为 n，语素代码ｇ前面置以N。
n 名词取英语名词 noun的第1个字母。
nr 人名名词代码 n和“人(ren)”的声母并在一起。
ns 地名名词代码 n和处所词代码s并在一起。
nt 机构团体 “团”的声母为 t，名词代码n和t并在一起。
nz 其他专名 “专”的声母的第 1个字母为z，名词代码n和z并在一起。
o 拟声词取英语拟声词 onomatopoeia的第1个字母。
p 介词取英语介词 prepositional的第1个字母。
q 量词取英语 quantity的第1个字母。
r 代词取英语代词 pronoun的第2个字母,因p已用于介词。
s 处所词取英语 space的第1个字母。
tg 时语素时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
t 时间词取英语 time的第1个字母。
u 助词取英语助词 auxiliary
vg 动语素动词性语素。动词代码为 v。在语素的代码g前面置以V。
v 动词取英语动词 verb的第一个字母。
vd 副动词直接作状语的动词。动词和副词的代码并在一起。
vn 名动词指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字非语素字只是一个符号，字母 x通常用于代表未知数、符号。
y 语气词取汉字“语”的声母。
z 状态词取汉字“状”的声母的前一个字母。
un 未知词不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准，CSW分词中定义)

以上是python版结巴分词的简单实用，分词后，统计词频，然后应用到vsm模型当中。后续跟进中。。。。

九指码农

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python-jieba分词的安装和使用

最近在做文本分析的这部分，对于中文文本，要想对其使用机器学习的算法，必须得将这种非结构化的数据转化为结构化的并且计算机能够认识的结构，这中间就涉及到了中文分词，本人比较熟悉的开源的分词框架有python的结巴和IK分词，IK分词我曾经在elasticsearch里面使用过，现在开始学习jieba分词的使用。安装：安装python3.4 python下载地址下载完毕后点击安装，然后配置环
复制链接

扫一扫