中文分词jieba学习笔记

一、分词模式

在这里插入图片描述

二、自定义词典

  注意:HMM模型(隐马尔可夫模型),可以识别新词

2.1 命令

  jieba.load_userdict(filename) filename为自定义词典的路径

2.2 使用方式

  在使用的时候,词典的格式和jieba分词器本身的分词器中的词典格式必须保持一致,一个词占一行,每一行分成三部分,一部分为词语,一部分为词频(可以省略),最后为词性(可以省略),用空格隔开。

三、关键词抽取(基于TF-IDF算法)

  关键词抽取并且进行词向量化之后,才好进行下一步的文本分析,可以说这一步是自然语言处理技术中文本处理最基础的一步。提取出来的关键词是字典形式存储。

3.1 用jieba.analyse.extract_tags()

  命令

jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPos=())

  参数sentence:待提取文本
     topK:返回几个TF/IDF权重最大的关键词,默认为20个
     withWeight:是否返回关键词的权重值,默认为False
     allowPos:仅包含指定词性的词,默认为空,即不筛选
  例子

import jieba.analyse
s="我好想去重庆找大瑞玩然后一起吃火锅喝冰奶茶啊"
for a,b in jieba.analyse.extract_tags(s,withWeight=True):
 print(a,b)

  结果

找大瑞 1.7078239289857142
喝冰 1.7078239289857142
吃火锅 1.5578493397714286
奶茶 1.4661559274571427
重庆 0.9241968538314286
一起 0.6959970096985714
然后 0.6867600907842857

3.2 用jieba.analyse.textrank(s)

  和extract_tags的不同好像在于textrank进行了归一化。
  命令

jieba.analyse.textrank(sentence,topK=20,withWeight=False,allowPOS)

  参数:和上述一样。
  例子

import jieba.analyse
s="不想上学啊啊啊啊"
a= jieba.analyse.textrank(s,withWeight=True)
print(a)

  结果

[('不想', 1.0), ('上学', 0.9961264494011037)]

四、词性标注

  切出来的结果是generator。
  例子

s="这个十一月俺要去南京看枫叶、吃生煎和锅贴。"
for c,d in jieba.posseg.cut(s):
 print(c,d)

  结果

这个 r
十一月 m
俺 r
要 vv
南京 ns
看 v
枫叶 n
、 x
吃生 vv
和 c
锅贴 n
。 x

  paddle模式词性

标签含义标签含义标签含义标签含义
n普通名词f方位名词s处所名词t时间
nr人名ns地名nt机构名nw作品名
nz其他专名v普通动词vd动副词vn名动词
a形容词ad副行词an名形词d副词
m数量词q量词r代词p介词
c连词u助词xc其他虚词w标点符号
PER人名LOC地名ORG机构名TIME时间

五、并行分词

  注意:windows不支持并行分词
  命令jieba.enable_parallel(4),参数代表并行进程数
     jieba.disable_parallel(),关闭并行分词模式

六、返回词语在原文的起止位置

  使用jieba.tokenize可以返回词语在原文的起始位置
  注意:输入参数只接受unicode

result = jieba.tokenize(u'上海益民食品一厂有限公司')
print("【普通模式】")
for tk in result:
    print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值