利用jieba库进行词频统计

最新推荐文章于 2024-03-09 16:40:46 发布

算法与编程之美

最新推荐文章于 2024-03-09 16:40:46 发布

阅读量3.3k

点赞数

文章标签：列表字符串 python 人工智能自然语言处理

《算法与编程之美》技术专栏荣获2020年腾讯云+社区“人气作者”优秀专栏，2021年荣获“CSDN博客专家”称号，全网累计阅读量突破100万人次。

本文链接：https://blog.csdn.net/gschen_cn/article/details/125240844

版权

0 引言

在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。

1 问题

通过对一篇文章和一本书中的词频统计，我们可以知道什么事物或是谁在该文章或该著作作者用了更多的文笔来提到和描述它，

2 方法

encoding=’ANSI’:将打开的文本格式设为ANSI形式
read(size):方法从文件当前位置起读取size个字节，若无参数size，则表示读取至文件结束为止，它范围为字符串对象。
items = list（counts.items）:将counts中的元素存入items表格中。
key = lambda x:x[1]:等价于 def func(x):
return x[1]
reverse = True：列表反转排序，不写reverse = True 就是列表升序排列，括号里面加上reverse =True 就是降序排列！
{0:<10}{1:>5}: <表示左对齐，>表示右对齐，数字表示宽度,<10表示左对齐，并占10个位置，>5表示右对齐，占5个位置。

3 实验结果与讨论

通过实验、实践等证明提出的方法是有效的，是能够解决开头提出的问题。

代码清单 1

import jieba
txt = open("三国演义.txt", "r", encoding='ANSI').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
word, count = items[i]
print ("{0:<10}{1:>5}".format(word, count))

4 结语

使用jieba库对一段文本进行词频的统计是一件非常有意思的事，我们只需要使用这第三方库，就可以在不阅读文本的情况下，得到该文本的高频率词汇。但jieba库的作用远远不止于此，它更多的作用等着我们去挖掘。

算法与编程之美

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用jieba库进行词频统计

0 引言在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。1 问题通过对一篇文章和一本书中的词频统计，我们可以知道什么事物或是谁在该文章或该著作作者用了更多的文笔来提到和描述它，2 方法encoding=’ANSI’:将打开的文本格式设为ANSI形式read(size):方法...
复制链接

扫一扫

算法与编程之美

CSDN认证博客专家 CSDN认证企业博客

码龄11年

算法领域新星创作者

2209: 原创

1728: 周排名

387: 总排名

349万+: 访问

: 等级

2万+: 积分

3万+: 粉丝

2066: 获赞

802: 评论

6703: 收藏

私信

关注

热门文章

分类专栏

最新评论

用python解二元一次方程
m0_74551992: 这个不是一元二次方程吗？
用python画一个正八边形
m0_60635001: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
判断用户是否成年
m0_60635637: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
判断一串数字是否对称
m0_60635001: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
按键精灵的简单入门
画中有画: 看的有点云里雾里，感觉冰狐智能辅助更简单些，功能也更强大些

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

算法与编程之美 欢迎关注『算法与编程之美』

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。