python环境jieba分词

最新推荐文章于 2022-12-11 10:06:22 发布

猫不吃老鼠

最新推荐文章于 2022-12-11 10:06:22 发布

阅读量181

点赞数

分类专栏：文本处理文章标签： jieba 分词

本文链接：https://blog.csdn.net/qq_42219077/article/details/93202137

版权

文本处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

对于中文分词，有jieba和hanlp两种包，但是hanlp需要java环境，而对于我的关键词提取需求，jieba已然足够，所以我采用了jieba.
首先安装：pip install jieba

几种分词方法

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

统计出场次数

#统计出现顺序
txt = open("E:/xiaopeng/txt_xbnf/example.txt", "r").read()
words = jieba.lcut(txt, cut_all=True)  # 使用精确模式对文本进行分词
print(words)
counts = {}  # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if len(word) == 1:  # 单个词语不计算在内
        continue
    else:
        counts[word] = counts.get(word, 0) + 1  # 遍历所有词语，每出现一次其对应的值加 1

items = list(counts.items())  # 将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(len(words)):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

在这里插入图片描述