python jieba分词教程_Python jieba 分词

环境

Anaconda3 Python 3.6, Window 64bit

目的

利用 jieba 进行分词,关键词提取

代码

# -*- coding: utf-8 -*-

import jieba

import jieba.posseg as jbpos

import jieba.analyse as jbal

'''

词性说明:

a:形容词

d:副词

i:成语

m:数词

n:名词

nr:人名

ns:地名

nt:机构团体

nz:其他专有名词

t:时间

v:动词

x:标点符号

f:方位词

un:未知

'''

string1 = "国内掀起了大数据、云计算的热潮。"

# 全模式

w1 = jieba.cut(string1, cut_all=True)

# for i in w1:

# print(i)

# 精准模式,默认是精准模式

w2 = jieba.cut(string1)

# for i in w2:

# print(i)

# print("")

# 搜索引擎模式

w3 = jieba.cut_for_search(string1)

# for i in w3:

# print(i)

# print("")

# 词性标注

w4 = jbpos.cut(string1)

# for i in w4:

# print(i.word + "--" + i.flag)

# print("")

# 词典加载

# jieba.load_userdict("dict2.txt")

string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"

#word 词语,flag 词性

w5 = jbpos.cut(string2)

for i in w5:

print(i.word + "--" + i.flag)

print("\n")

# 更改词频-单个词

jieba.suggest_freq("大数据", True)

jieba.suggest_freq("云计算", True)

w6 = jbpos.cut(string2)

for i in w6:

print(i.word + "--" + i.flag)

print("\n")

# 动态修改词典 删除词 del_word

jieba.add_word("仙鹤门")

w7 = jbpos.cut(string2)

for i in w7:

print(i.word + "--" + i.flag)

print("\n")

# 提取关键词 第二个参数控制提取参数个数

w8 = jbal.extract_tags(string2, 5)

print(w8)

View Code

结果展示

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值