jieba分词

jieba分词和关键词提取

为处理团队从网站爬取的信息,尝试使用Python的jieba库进行关键字提取

jieba分词

1.jieba.cut():返回一个迭代器

全模式: jieba.cut(string,cut_all=all)
精确模式: jieba.cut(string, cut_all=false)
默认是精确模式: jieba.cut(string)
搜索引擎模式: jieba.cut_for_search(string)

2. jieba.lcut(string):返回一个列表

# encoding=utf-8
import jieba

str = "本科及以上学历,计算机、数学等相关专业重点学校在校生(硕士为佳)-- 至少掌握一门编程语言,包括SQL。熟悉Linux;" \
     "-- 熟悉常见的机器学习算法与原理(包括nlp领域),有相关实战项目或者比赛经验者优先, 有实际成果发表者优先 "
# 全模式: jieba.cut(string,cut_all=all)
seg_list = jieba.cut(str, cut_all=True)
print("全模式: " + " ".join(seg_list))

# 精确模式: jieba.cut(string, cut_all=false)
seg_list = jieba.cut(str, cut_all=False)
print("精确模式: " + " ".join(seg_list))

# 默认是精确模式: jieba.cut(string)
seg_list = jieba.cut(str)
print("默认模式:"+"  ".join(seg_list))

# 搜索引擎模式:   jieba.cut_for_search(string)
seg_list = jieba.cut_for_search(str) 
print("搜索引擎模式:"+ " ".join(seg_list))

# lcut方法:返回的是列表
seg_list = jieba.lcut(str)
print(seg_list)


输出结果如下


全模式: 本科 及 以上 以上学历 上学 学历   计算 计算机 算机   数学 等 相关 专业 重点 学校 在校 在校生   硕士 为 佳      至少 掌握 一门 编程 编程语言 语言   包括 SQL  熟悉 Linux     熟悉 常见 的 机器 学习 算法 与 原理   包括 nlp 领域    有 相关 实战 项目 或者 比赛 经验 者 优先    有 实际 成果 发表 者 优先  

精确模式: 本科 及 以上学历 , 计算机 、 数学 等 相关 专业 重点 学校 在校生 ( 硕士 为佳 ) - -   至少 掌握 一门 编程语言 , 包括 SQL 。 熟悉 Linux ; - -   熟悉 常见 的 机器 学习 算法 与 原理 ( 包括 nlp 领域 ) , 有 相关 实战 项目 或者 比赛 经验 者 优先 ,   有 实际 成果 发表 者 优先  

默认模式:本科  及  以上学历  ,  计算机  、  数学  等  相关  专业  重点  学校  在校生  (  硕士  为佳  )  -  -     至少  掌握  一门  编程语言  ,  包括  SQL  。  熟悉  Linux  ;  -  -     熟悉  常见  的  机器  学习  算法  与  原理  (  包括  nlp  领域  )  ,  有  相关  实战  项目  或者  比赛  经验  者  优先  ,     有  实际  成果  发表  者  优先   

搜索引擎模式:本科 及 以上 上学 学历 以上学历 , 计算 算机 计算机 、 数学 等 相关 专业 重点 学校 在校 在校生 ( 硕士 为佳 ) - -   至少 掌握 一门 编程 语言 编程语言 , 包括 SQL 。 熟悉 Linux ; - -   熟悉 常见 的 机器 学习 算法 与 原理 ( 包括 nlp 领域 ) , 有 相关 实战 项目 或者 比赛 经验 者 优先 ,   有 实际 成果 发表 者 优先  

lcut模式:['本科', '及', '以上学历', ',', '计算机', '、', '数学', '等', '相关', '专业', '重点', '学校', '在校生', '(', '硕士', '为佳', ')', '-', '-', ' ', '至少', '掌握', '一门', '编程语言', ',', '包括', 'SQL', '。', '熟悉', 'Linux', ';', '-', '-', ' ', '熟悉', '常见', '的', '机器', '学习', '算法', '与', '原理', '(', '包括', 'nlp', '领域', ')', ',', '有', '相关', '实战', '项目', '或者', '比赛', '经验', '者', '优先', ',', ' ', '有', '实际', '成果', '发表', '者', '优先', ' ']

3.加入自定义词典,满足不同情况的需求

有些时候,需要识别的词在默认词库中不存在,用户通过手动添加自定词典的路径或使用函数添加少数单词

1.jieba.load_userdict(file_name)加载用户字典
2.少量的词汇可以用下面方法手动添加(可实现动态修改词典):
◾用 add_word(word, freq=None, tag=None) 和 del_word(word) 在程序中动态修改词典
◾用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。

# encoding=utf-8
import jieba

str = "江州市长江大桥参加了长江大桥的通车仪式。"

# 添加江州市之前
seg_list = jieba.cut(str)
print("默认模式:"+"  ".join(seg_list))

# 添加江州市到词典中
jieba.suggest_freq(("江州市"), tune=True)
seg_list=jieba.cut(str)
print(" ".join(seg_list))

输出结果:

默认模式:江州  市  长江大桥  参加  了  长江大桥  的  通车  仪式  。
江州市 长江大桥 参加 了 长江大桥 的 通车 仪式 。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值