jieba库，与，美工刀

Yuriko~

已于 2022-10-11 21:51:13 修改

阅读量491

点赞数

分类专栏：不同的函数库文章标签： python

于 2022-01-21 12:50:09 首次发布

本文链接：https://blog.csdn.net/VioletWill/article/details/122594507

版权

不同的函数库专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这篇博客介绍了如何使用Python的jieba库进行中文分词，并结合词频统计进行文本分析。作者提供了安装jieba库的方法，以及一段包含个人感悟的示例文本，旨在通过实例展示jieba库的功能。在代码部分，作者遇到了显示问题，寻求读者的帮助。

摘要由CSDN通过智能技术生成

壹：介绍

Python第三方库 "jieba库" 的功能是对中文进行分词；"jieba库" 就像一把美工刀，而中文文本为一张精美的彩纸，我们用美工刀将彩纸裁剪成一小块一小块。

在这一篇博文里，"jieba库" 将与 "词频统计" 联动。意思是说，会有很多Python干货作为内容的补充哦。

贰：安装

推荐采用，镜像法安装：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

大家可以新建一个 “txt文本文档” ，将这段指令保存起来（因为其他库的安装也是类似的，将库名替换一下就行）。

叁：准备

既然说到词频统计，那么，没有知识点的储备，与，事先准备好的文本是不行的，对吧？

"Follow me."

《基本知识》
jieba.lcut(txt)	对 txt 进行精确分词。

下面是文本（可以考虑按住"Shift键"复制）。

......

日期：2020年4月17日天气：雨

今天，特别。为什么？因为，今天是4月的第三个星期五。

也许你会问：“这有什么特别的呀？”我想说，每一天都是独特的礼物，它独一无二，它只存在一天。

“那么，为什么不去珍惜它呢？”

明天，星期六；后天，星期天。“全省适应性考试”（类似高考的操作流程）。啊呀呀，到了这一天吗？感慨感慨。

总之，不论怎样，自己都要好好地去完成它呀！或许，通过这次考试我能获得些新的什么也说不定哦。

《看天下》确实是一本有趣的杂志。

当然，前提是你能静下心去阅读。以前呢，阅读《看天下》，自己的感受是——信息量好大！文章好长！怎么可能静下心来去阅读嘛！

但，随着年岁的增长（我觉得，用这个词也还行），或许是我老了，自己也逐渐变得稳重，心智也慢慢地成熟......也许，大概，可能是因为这一原因吧？

自己可以安静下来阅读这本杂志的原因（部分），以上。

这页好像要写完了，换行吧。

因为今天是特别的，所以在这个特别的日子里自己想将这篇日记写得长一些。

高考，自己的理想大学是哪?

我想是，北京外国语大学。对于语言，自己有种说不上来的感觉，喜欢（病句？）。

如果，你问我为什么喜欢（倒也不会觉得你烦）。

我觉得，我回答不上来，因为，喜欢是不需要理由的，至少，我是这样觉得的。

那么，自己就更要“好好学习，天天向上”了（姨母笑）。

后天，星期天。考完试后，出去理发。然后，回家吃饭。停下笔回想，自己上次出校是在半个月前吧？

截至今日中午，全球新冠病毒累计确诊病例已经是199万+，接近200万了。这真的是一件值得深思的问题。

“人与自然的矛盾，社会的恐慌，高失业率，两极分化问题......”

我们确实是面临着许多问题，矛盾。但这并不意味着我们不去解决它们。

一面墙，是由一块一块的砖堆砌起来的，一件事的解决是这样，一个人的一生也是这样。

......

肆：代码

以下是代码。

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 20 12:09:10 2022

@author: will
"""

#%%
# 调用函数库。

import jieba

#%%
# 获取文本。

txt = open("日记.txt","r",encoding = "utf-8").read()

#%%
# 分词。

words = jieba.lcut(txt)

#print(words) # 查看分词后的结果。

#%%
# 处理。

List = list()

for word in words:
    
    if len(word) == 1:
        
        pass
    
    else:
        
        List.append(word)
    
#print(List)
    
#%%
# 创建计数器。

dic = dict()

for word in List:
    
    dic[word] = dic.get(word,0) + 1
    
#print(dic)

#%%
# 排序。

item = list(dic.items())

#print(item)

item.sort(key=lambda x:x[1],reverse=True)

#print(item) #如果将"1"修改为"0",结果会有什么变化呢？试试看吧！

#%%
# 导出结果。

for i in range(10):
    
    word,count = item[i]
    
    print("{0:<10}{1:>4}".format(word,count))

#%%
# 待优化。

Emm，，这是运行结果图，不过显示的时候好像错位了，伙伴们，能告诉博主该怎么解决问题吗？（疑惑）