python文本txt词频统计_python实例：三国演义TXT文本词频分析

最新推荐文章于 2024-06-16 10:55:13 发布

weixin_39669265

最新推荐文章于 2024-06-16 10:55:13 发布

阅读量1.8k

点赞数

文章标签： python文本txt词频统计

本文介绍了使用Python的jieba库对《三国演义》TXT文本进行词频分析的过程，包括读取文件、分词、统计、排序等步骤，并提供了遇到的编码问题及解决方法。

摘要由CSDN通过智能技术生成

0x00 前言

找不到要写什么东西了！今天有个潭州大牛讲师说了个文本词频分析

我基本上就照抄了一遍

中间遇到一些小小的问题自我百度填坑补全了如下：

效果演示

0x01 准备环境及介绍

python3.x版本随意

安装jieba库

pip install jieba

jieba三种模式：

1.精准模式 lcut函数，返回一个分词列表

2.全模式

3.搜索引擎模式

词频：

：的键值对

IPO描述 imput output process

输入　：从文件读取三国演义的内容

处理　：采用jiedb进行分词，字典数据结构统计词语出现的频率

输出　：文章中出现最对的前10个词

代码：

第一步：读取文件

第二步：分词

第三步：统计

第四步：排序

介绍完毕了！那么进入实战吧！

0x02 实战

完整代码如下：

1 importjieba2

3 content = open(‘三国演义.txt‘, ‘r‘,encoding=‘utf-8‘).read()4 words =jieba.lcut(content)#分词

5 excludes={"将军","却说","二人&#

最低0.47元/天解锁文章

weixin_39669265

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python文本txt词频统计_python实例：三国演义TXT文本词频分析

0x00 前言找不到要写什么东西了！今天有个潭州大牛讲师说了个文本词频分析我基本上就照抄了一遍中间遇到一些小小的问题自我百度填坑补全了如下：效果演示0x01 准备环境及介绍python3.x版本随意安装jieba库pip install jiebajieba三种模式：1.精准模式 lcut函数，返回一个分词列表2.全模式3.搜索引擎模式词频：：的键值对IPO描述 imp...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。