Jieba+collections中英文混合语言文章词频统计

ZehangZhu Studio

已于 2023-09-03 12:42:59 修改

阅读量430

点赞数 4

分类专栏： Python高效办公文章标签： python 算法 pip

于 2023-09-02 23:13:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CN_ZZH/article/details/132643138

版权

Jieba+collections中英文混合语言文章词频统计

前言

前几个星期写了“WordCount-词频统计-英语考级必备-超好用-开源-Python”想着只能统计英文有局限性，就想着把中文的加上。
原文地址：https://blog.csdn.net/CN_ZZH/article/details/132458966

库介绍

Jieba（结巴）

jieba是一个优秀的第三方中文词库，用于中文分词。中文分词指的是将一个汉字序列切分成一个一个单独的词。jieba可以帮助你快速高效地完成中文分词，支持三种分词模式：精确模式、全模式和搜索引擎模式。

collections

collections是Python标准库中的一个模块，提供了一些额外的容器类型，以提供Python标准内建容器dict , list , set , 和tuple的替代选择。这些容器类型包括namedtuple、deque、Counter等。

安装库

可以使用pip安装

pip install jieba

建议使用国内镜像，速度更快。或者你可以挂梯*，懂得都懂(>_O)

推荐几个不错的国内镜像：

阿里云：https://mirrors.aliyun.com/pypi/simple/
豆瓣：https://pypi.douban.com/simple/
清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

使用方法：

pip install -i [镜像地址] jieba

代码

导入库

首先在文档开头导入要用的库

# !usr/bin/python3
# -*- coding:UTF-8 -*-
import sys
import jieba
from collections import Counter

词频统计函数

把算法写成一个函数，其中参数Objfile是要统计的文件内容。output是是否输出，为0的话就不打印显示了

def wordcount(Objfile,output = 1):
	# 打开并读取文件
	with

最低0.47元/天解锁文章

ZehangZhu Studio

博客等级

码龄3年

6
原创

17
点赞

20
收藏

316
粉丝

关注

私信

热门文章

分类专栏

Python高效办公 4篇

最新评论

Python代码的保护措施
ZehangZhu Studio: 谢谢支持
Python字典调度模式
CSDN-Ada助手: 恭喜您写了第四篇博客，题为“Python字典调度模式”。很高兴看到您不断创作并分享有关Python的知识。您的博客内容很有深度，让读者对字典调度模式有了更深入的了解。在下一步的创作中，我建议您可以考虑探讨一下字典调度模式在实际应用中的案例，或者与其他相关主题进行结合，例如字典调度模式与数据处理、算法优化等方面的应用。这样能够进一步拓宽读者的视野，让他们更好地理解和应用字典调度模式。期待您的下一篇博客，希望您能够继续保持创作的热情，并分享更多有关Python的知识。谦虚的态度是我们不断进步的动力，相信您会有更多精彩的创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python代码的保护措施
CSDN-Ada助手: 恭喜你撰写了第5篇博客！你对Python代码的保护措施进行了深入的探讨，这无疑对广大读者来说是非常有帮助的。你的文章内容简洁明了，解释得很清楚，让我对如何保护Python代码有了更深入的理解。接下来，我想提供一些建议供你参考。考虑到你已经探讨了代码的保护措施，或许你可以进一步讨论如何优化代码的性能、提高代码的可读性等方面。此外，你也可以尝试探索一些高级主题，例如Python代码的加密和解密，或者如何防止代码被反编译等等。我相信你的深入研究和详细解释一定会为读者带来更多的启发和帮助。继续保持写作的热情和努力，期待你的下一篇博客！谦虚谨慎的态度是你写作风格中的一大亮点，希望你能继续保持，并且继续为读者带来更多有价值的内容。加油！
Python新手教程 Python的下载与安装
CSDN-Ada助手: 非常棒的博文！非常感谢您分享关于Python下载与安装的教程。对于初学者来说，这是一个非常重要的步骤，您的指导一定会对他们有所帮助。除了下载和安装Python之外，我想补充一些相关的知识和技能。在学习Python的过程中，掌握一些常用的Python库和工具将会非常有用。例如，您可以学习使用NumPy进行科学计算、使用Pandas进行数据分析、使用Matplotlib进行数据可视化等等。此外，了解和掌握虚拟环境的概念和使用也是非常重要的，它可以帮助您在不同项目之间轻松切换和管理不同的Python包和版本。再次感谢您的分享，期待您未来更多关于Python的教程和博文！不断学习和分享是我们成长的关键，希望您能继续保持创作的热情。祝您一切顺利！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
WorldCount-词频统计-英语考级必备-超好用-开源-Python
CSDN-Ada助手: 恭喜你开始博客创作！标题中的关键词“WorldCount-词频统计-英语考级必备-超好用-开源-Python”展示了你的博客内容非常丰富和实用。在这一主题上，你已经给读者提供了很多有价值的信息，这是一个很好的开始。接下来，我建议你可以进一步深入探讨如何优化词频统计算法或者分享一些实际案例，以帮助读者更好地理解和应用这个工具。期待你未来更多博客的发布！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。