python词频统计三国演义_python实例：三国演义TXT文本词频分析

最新推荐文章于 2024-01-15 07:30:00 发布

weixin_39733812

最新推荐文章于 2024-01-15 07:30:00 发布

阅读量2.4k

点赞数

文章标签： python词频统计三国演义

本文介绍了使用Python的jieba库进行三国演义文本的词频统计分析，包括分词模式、词频统计、排除特定词汇的过程，并分享了在处理过程中遇到的编码问题和解决方案。

摘要由CSDN通过智能技术生成

0x00 前言

找不到要写什么东西了！今天有个潭州大牛讲师说了个文本词频分析

我基本上就照抄了一遍

中间遇到一些小小的问题自我百度填坑补全了如下：

效果演示

0x01 准备环境及介绍

python3.x版本随意

安装jieba库

pip install jieba

jieba三种模式：

1.精准模式 lcut函数，返回一个分词列表

2.全模式

3.搜索引擎模式

词频：

：的键值对

IPO描述 imput output process

输入　：从文件读取三国演义的内容

处理　：采用jiedb进行分词，字典数据结构统计词语出现的频率

输出　：文章中出现最对的前10个词

代码：

第一步：读取文件

第二步：分词

第三步：统计

第四步：排序

介绍完毕了！那么进入实战吧！

0x02 实战

完整代码如下：

1 importjieba2

3 content = open('三国演义.txt', 'r',encoding='utf-8').read()4 words =jieba.lcut(content)#分词

5 excludes={"将军"

最低0.47元/天解锁文章

weixin_39733812

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。