jieba分词

最新推荐文章于 2019-04-06 14:50:00 发布

Tyrion49

最新推荐文章于 2019-04-06 14:50:00 发布

阅读量329

点赞数

分类专栏： Python笔记文章标签： Python jieba

本文链接：https://blog.csdn.net/btod49/article/details/88406991

版权

Python笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

jieba分词和关键词提取

为处理团队从网站爬取的信息，尝试使用Python的jieba库进行关键字提取

jieba分词

1.jieba.cut()：返回一个迭代器

全模式： jieba.cut(string,cut_all=all)
精确模式： jieba.cut(string, cut_all=false)
默认是精确模式： jieba.cut(string)
搜索引擎模式: jieba.cut_for_search(string)

2. jieba.lcut(string)：返回一个列表


# encoding=utf-8
import jieba

str = "本科及以上学历，计算机、数学等相关专业重点学校在校生(硕士为佳)-- 至少掌握一门编程语言，包括SQL。熟悉Linux；" \
     "-- 熟悉常见的机器学习算法与原理（包括nlp领域），有相关实战项目或者比赛经验者优先, 有实际成果发表者优先 "
# 全模式： jieba.cut(string,cut_all=all)
seg_list = jieba.cut(str, cut_all=True)
print("全模式: " + " ".join(seg_list))

# 精确模式： jieba.cut(string, cut_all=false)
seg_list = jieba.cut(str, cut_all=False)
print("精确模式: " + " ".join(seg_list))

# 默认是精确模式： jieba.cut(string)
seg_list = jieba.cut(str)
print("默认模式:"+"  ".join(seg_list))

# 搜索引擎模式:   jieba.cut_for_search(string)
seg_list = jieba.cut_for_search(str) 
print("搜索引擎模式:"+ " ".join(seg_list))

# lcut方法：返回的是列表
seg_list = jieba.lcut(str)
print(seg_list)

输出结果如下


全模式: 本科 及 以上 以上学历 上学 学历   计算 计算机 算机   数学 等 相关 专业 重点 学校 在校 在校生   硕士 为 佳      至少 掌握 一门 编程 编程语言 语言   包括 SQL  熟悉 Linux     熟悉 常见 的 机器 学习 算法 与 原理   包括 nlp 领域    有 相关 实战 项目 或者 比赛 经验 者 优先    有 实际 成果 发表 者 优先  

精确模式: 本科 及 以上学历 ， 计算机 、 数学 等 相关 专业 重点 学校 在校生 ( 硕士 为佳 ) - -   至少 掌握 一门 编程语言 ， 包括 SQL 。 熟悉 Linux ； - -   熟悉 常见 的 机器 学习 算法 与 原理 （ 包括 nlp 领域 ） ， 有 相关 实战 项目 或者 比赛 经验 者 优先 ,   有 实际 成果 发表 者 优先  

默认模式：本科  及  以上学历  ，  计算机  、  数学  等  相关  专业  重点  学校  在校生  (  硕士  为佳  )  -  -     至少  掌握  一门  编程语言  ，  包括  SQL  。  熟悉  Linux  ；  -  -     熟悉  常见  的  机器  学习  算法  与  原理  （  包括  nlp  领域  ）  ，  有  相关  实战  项目  或者  比赛  经验  者  优先  ,     有  实际  成果  发表  者  优先   

搜索引擎模式：本科 及 以上 上学 学历 以上学历 ， 计算 算机 计算机 、 数学 等 相关 专业 重点 学校 在校 在校生 ( 硕士 为佳 ) - -   至少 掌握 一门 编程 语言 编程语言 ， 包括 SQL 。 熟悉 Linux ； - -   熟悉 常见 的 机器 学习 算法 与 原理 （ 包括 nlp 领域 ） ， 有 相关 实战 项目 或者 比赛 经验 者 优先 ,   有 实际 成果 发表 者 优先  

lcut模式：['本科', '及', '以上学历', '，', '计算机', '、', '数学', '等', '相关', '专业', '重点', '学校', '在校生', '(', '硕士', '为佳', ')', '-', '-', ' ', '至少', '掌握', '一门', '编程语言', '，', '包括', 'SQL', '。', '熟悉', 'Linux', '；', '-', '-', ' ', '熟悉', '常见', '的', '机器', '学习', '算法', '与', '原理', '（', '包括', 'nlp', '领域', '）', '，', '有', '相关', '实战', '项目', '或者', '比赛', '经验', '者', '优先', ',', ' ', '有', '实际', '成果', '发表', '者', '优先', ' ']

3.加入自定义词典，满足不同情况的需求

有些时候，需要识别的词在默认词库中不存在，用户通过手动添加自定词典的路径或使用函数添加少数单词

1.jieba.load_userdict(file_name)加载用户字典
2.少量的词汇可以用下面方法手动添加（可实现动态修改词典）：
◾用 add_word(word, freq=None, tag=None) 和 del_word(word) 在程序中动态修改词典
◾用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

# encoding=utf-8
import jieba

str = "江州市长江大桥参加了长江大桥的通车仪式。"

# 添加江州市之前
seg_list = jieba.cut(str)
print("默认模式:"+"  ".join(seg_list))

# 添加江州市到词典中
jieba.suggest_freq(("江州市"), tune=True)
seg_list=jieba.cut(str)
print(" ".join(seg_list))

输出结果：

默认模式:江州  市  长江大桥  参加  了  长江大桥  的  通车  仪式  。
江州市 长江大桥 参加 了 长江大桥 的 通车 仪式 。

Tyrion49

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba分词

jieba分词和关键词提取为处理团队从网站爬取的信息，尝试使用Python的jieba库进行关键字提取jieba分词1.jieba.cut()：返回一个迭代器全模式： jieba.cut(string,cut_all=all)精确模式： jieba.cut(string, cut_all=false)默认是精确模式： jieba.cut(string)搜索引擎模式: jieba....
复制链接

扫一扫

专栏目录