python-jieba分词的安装和使用

最近在做文本分析的这部分,对于中文文本,要想对其使用机器学习的算法,必须得将这种非结构化的数据转化为结构化的并且计算机能够认识的结构,这中间就涉及到了中文分词,本人比较熟悉的开源的分词框架有python的结巴和IK分词,IK分词我曾经在elasticsearch里面使用过,现在开始学习jieba分词的使用。
安装:
安装python3.4
python下载地址
下载完毕后点击安装,然后配置环境变量,此处的环境变量配置:C:\Python34;和C:\Python34\Scripts
jieba-jieba3k和setuptools-5.7的安装,去下载相应的安装文件,解压,然后再命令行里面,进行安装,python install setup.py
安装很简单的。
下面介绍结巴分词的使用:
支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
import jieba

seg_list = jieba.cut(“我来到北京清华大学”, cut_all=True)
print (“Full Mode:”, “/ “.join(seg_list) )# 全模式

seg_list = jieba.cut(“我来到北京清华大学”, cut_all=False)
print (“Default Mode:”, “/ “.join(seg_list) )# 精确模式

seg_list = jieba.cut(“他来到了网易杭研大厦”) # 默认是精确模式
print (“, “.join(seg_list))

seg_list = jieba.cut_for_search(“小搜索明硕士毕业于中国科学院计算所,后在日本京都大学深造”) # 搜索引擎模式
print (“, “.join(seg_list))

Output:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
关键词提取
import jieba.analyse
jieba.analyse.extract_tags(sentence,topK) #setence为待提取的文本
关键词提取
topK为返回几个TF/IDF权重最大的关键词,默认值为20
词性标注
import jieba.posseg as pseg
words = pseg.cut(“我爱北京天安门”)
for w in words:
print w.word, w.flag
我 r
爱 v
北京 ns
天安门 ns

import jieba.analyse
jieba.load_userdict(“userdict1.txt”)
jieba.analyse.set_stop_words(“extra_dict/stop_words.txt”)
seg_list = jieba.cut(“香农在信息论中提出的信息熵定义为自信息的期望”, cut_all=True)
print(” “.join(seg_list))
print(‘关键词提取的结果如下:’)
tags = jieba.analyse.extract_tags(“香农在信息论中提出的信息熵定义为自信息的期望”, topK=10)
print(“,”.join(tags))

结巴分词的词性表:
Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。
a 形容词 取英语形容词 adjective的第1个字母。
ad 副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an 名形词 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词 conjunction的第1个字母。
dg 副语素 副词性语素。副词代码为 d,语素代码g前面置以D。
d 副词 取 adverb的第2个字母,因其第1个字母已用于形容词。
e 叹词 取英语叹词 exclamation的第1个字母。
f 方位词 取汉字“方”
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h 前接成分 取英语 head的第1个字母。
i 成语 取英语成语 idiom的第1个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m 数词 取英语 numeral的第3个字母,n,u已有他用。
Ng 名语素 名词性语素。名词代码为 n,语素代码g前面置以N。
n 名词 取英语名词 noun的第1个字母。
nr 人名 名词代码 n和“人(ren)”的声母并在一起。
ns 地名 名词代码 n和处所词代码s并在一起。
nt 机构团体 “团”的声母为 t,名词代码n和t并在一起。
nz 其他专名 “专”的声母的第 1个字母为z,名词代码n和z并在一起。
o 拟声词 取英语拟声词 onomatopoeia的第1个字母。
p 介词 取英语介词 prepositional的第1个字母。
q 量词 取英语 quantity的第1个字母。
r 代词 取英语代词 pronoun的第2个字母,因p已用于介词。
s 处所词 取英语 space的第1个字母。
tg 时语素 时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
t 时间词 取英语 time的第1个字母。
u 助词 取英语助词 auxiliary
vg 动语素 动词性语素。动词代码为 v。在语素的代码g前面置以V。
v 动词 取英语动词 verb的第一个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母 x通常用于代表未知数、符号。
y 语气词 取汉字“语”的声母。
z 状态词 取汉字“状”的声母的前一个字母。
un 未知词 不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

以上是python版结巴分词的简单实用,分词后,统计词频,然后应用到vsm模型当中。后续跟进中。。。。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值