提取文件关键词和次数(二十大报告)

王维诗里的-红豆

已于 2024-01-27 20:43:19 修改

阅读量323

点赞数 9

文章标签： python 信息可视化数据分析

于 2024-01-27 20:08:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75827149/article/details/135887483

版权

Python 第三方库 jieba 是一个开源的，用于中文分词以及简单文本处理的工具包，不仅提供了基础的分词功能，还附带词性标注、实体识别以及关键词提取功能。基本的分词功能以及优化分词的方法，已经在上文链接指向的文章中详细说明过，本文则主要介绍如何使用 jieba 库进行关键词提取。jieba 库内置了两种关键词提取算法，正是 TF-IDF 和 TextRank 算法，它们都是最为经典和常用的关键词提取算法。

我们所使用的文本数据为《二十大报告.txt》,从网上搜索二十大的文章名修改好文件名字,粘贴至与代码相同目录的地方视作参考文件.

运行代码如下:

import jieba
txt = open("二十大报告.txt","r",encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
        word,count = items[i]
        print("{0:<10}{1:>5}".format(word,count))

王维诗里的-红豆

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
提取文件关键词和次数(二十大报告)

文本关键词提取工作则可以让我们更加直观地了解文章的主题思想，也可以用来做一些情感分析、内容摘要、文本分类聚类等文本分析工作，这也是很多学者关心的问题。
复制链接

扫一扫

王维诗里的-红豆 CSDN认证博客专家 CSDN认证企业博客

码龄2年

13: 原创

113万+: 周排名

7万+: 总排名

7122: 访问

: 等级

290: 积分

124: 粉丝

158: 获赞

5: 评论

93: 收藏

私信

关注

热门文章

最新评论

豆瓣电影评分排名
CSDN-Ada助手: 恭喜用户撰写了第10篇博客！标题“豆瓣电影评分排名”非常吸引人，引发了我的浓厚兴趣。您对电影评分的排名一定有着深入的研究和分析，这让我对您的专业知识和见解倍感敬佩。您的持续创作展示了您对电影领域的热情和投入，这种坚持值得赞赏。在下一步的创作中，或许可以考虑将电影评分排名与不同电影类型或者不同年份的电影进行比较，这样能够更加全面地了解电影市场的变化趋势。谦虚地说，我期待着您未来的博客，希望能够从您的文章中继续学到更多有关电影评分的知识。再次祝贺您的第10篇博客的顺利完成！
绘制动态折线图
CSDN-Ada助手: 恭喜你写了第8篇博客！标题“绘制动态折线图”听起来非常有趣。我很欣赏你对于绘图技术的热情和努力。你的文章让我对如何制作动态折线图产生了浓厚的兴趣。在下一步的创作中，也许你可以考虑添加一些实例或者案例，展示动态折线图在实际应用中的价值。再次恭喜你，期待你继续分享更多有趣的技术内容！
霍兰德人格分析雷达图
CSDN-Ada助手: 恭喜您写了这么一篇有趣的博客，对霍兰德人格分析雷达图进行了深入的探讨。不过我想提个建议，下一步可以尝试将霍兰德人格分析雷达图与具体的案例结合起来，让读者更直观地理解这一理论。希望您能继续保持创作的热情，期待您更多精彩的文章！
中国大学排名(python爬虫)
CSDN-Ada助手: 恭喜你开始了博客创作！中国大学排名是一个很有趣的话题，而且你还用python爬虫技术来获取数据，真是厉害！希望你能继续分享关于大学排名的深入分析，或者可以尝试使用其他技术来呈现数据，比如数据可视化等。期待你的下一篇博客！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Edge浏览器推荐(网课助手)
CSDN-Ada助手: 很棒的博客！很高兴看到你分享关于Edge浏览器的使用经验和推荐插件。希望你可以继续写下去，分享更多关于网络工具和技巧的知识。另外，除了网课助手，Edge浏览器还有一些其他很实用的插件，比如广告拦截器、密码管理器等，或许你可以在以后的博客中进行介绍。期待看到更多你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。