jieba库,与,美工刀

这篇博客介绍了如何使用Python的jieba库进行中文分词,并结合词频统计进行文本分析。作者提供了安装jieba库的方法,以及一段包含个人感悟的示例文本,旨在通过实例展示jieba库的功能。在代码部分,作者遇到了显示问题,寻求读者的帮助。
摘要由CSDN通过智能技术生成

目录

 

壹:介绍

贰:安装

叁:准备

肆:代码

伍:最后


壹:介绍

        Python第三方库 "jieba库" 的功能是对中文进行分词;"jieba库" 就像一把美工刀,而中文文本为一张精美的彩纸,我们用美工刀将彩纸裁剪成一小块一小块

        在这一篇博文里,"jieba库" 将与 "词频统计" 联动。意思是说,会有很多Python干货作为内容的补充哦。


贰:安装

        推荐采用,镜像法安装:pip install  -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

        大家可以新建一个 “txt文本文档” ,将这段指令保存起来(因为其他库的安装也是类似的,将库名替换一下就行)。


叁:准备

        既然说到词频统计,那么,没有知识点的储备,与,事先准备好的文本是不行的,对吧?

        "Follow me."

《基本知识》
       jieba.lcut(txt)       对 txt 进行精确分词。

        下面是文本可以考虑按住"Shift键"复制)。

......

日期:2020年4月17日        天气:雨

        今天,特别。为什么?因为,今天是4月的第三个星期五。

        也许你会问:“这有什么特别的呀?”我想说,每一天都是独特的礼物,它独一无二,它只存在一天。

        “那么,为什么不去珍惜它呢?”

        明天,星期六;后天,星期天。“全省适应性考试”(类似高考的操作流程)。啊呀呀,到了这一天吗?感慨感慨。

        总之,不论怎样,自己都要好好地去完成它呀!或许,通过这次考试我能获得些新的什么也说不定哦。

        《看天下》确实是一本有趣的杂志。

        当然,前提是你能静下心去阅读。以前呢,阅读《看天下》,自己的感受是——信息量好大!文章好长!怎么可能静下心来去阅读嘛!

        但,随着年岁的增长(我觉得,用这个词也还行),或许是我老了,自己也逐渐变得稳重,心智也慢慢地成熟......也许,大概,可能是因为这一原因吧?

        自己可以安静下来阅读这本杂志的原因(部分),以上。

        这页好像要写完了,换行吧。

        因为今天是特别的,所以在这个特别的日子里自己想将这篇日记写得长一些。

        高考,自己的理想大学是哪?

        我想是,北京外国语大学。对于语言,自己有种说不上来的感觉,喜欢(病句?)。

        如果,你问我为什么喜欢(倒也不会觉得你烦)。

        我觉得,我回答不上来,因为,喜欢是不需要理由的,至少,我是这样觉得的。

        那么,自己就更要“好好学习,天天向上”了(姨母笑)。

        后天,星期天。考完试后,出去理发。然后,回家吃饭。停下笔回想,自己上次出校是在半个月前吧?

        截至今日中午,全球新冠病毒累计确诊病例已经是199万+,接近200万了。这真的是一件值得深思的问题。

        “人与自然的矛盾,社会的恐慌,高失业率,两极分化问题......”

        我们确实是面临着许多问题,矛盾。但这并不意味着我们不去解决它们。

        一面墙,是由一块一块的砖堆砌起来的,一件事的解决是这样,一个人的一生也是这样。

......


肆:代码

        以下是代码。

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 20 12:09:10 2022

@author: will
"""

#%%
# 调用函数库。

import jieba

#%%
# 获取文本。

txt = open("日记.txt","r",encoding = "utf-8").read()

#%%
# 分词。

words = jieba.lcut(txt)

#print(words) # 查看分词后的结果。

#%%
# 处理。

List = list()

for word in words:
    
    if len(word) == 1:
        
        pass
    
    else:
        
        List.append(word)
    
#print(List)
    
#%%
# 创建计数器。

dic = dict()

for word in List:
    
    dic[word] = dic.get(word,0) + 1
    
#print(dic)

#%%
# 排序。

item = list(dic.items())

#print(item)

item.sort(key=lambda x:x[1],reverse=True)

#print(item) #如果将"1"修改为"0",结果会有什么变化呢?试试看吧!

#%%
# 导出结果。

for i in range(10):
    
    word,count = item[i]
    
    print("{0:<10}{1:>4}".format(word,count))

#%%
# 待优化。

        Emm,,这是运行结果图,不过显示的时候好像错位了,伙伴们,能告诉博主该怎么解决问题吗?(疑惑)

伍:最后

        “你是谁?你从哪里来?你要到哪里去?” 好好地回答这个问题对于提升自己的能力会很有帮助。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yuriko~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值