用python分析四大名著（一）

最新推荐文章于 2024-08-08 16:43:27 发布

一个追逐自我的程序员

最新推荐文章于 2024-08-08 16:43:27 发布

阅读量1.2w

点赞数 3

分类专栏： python 文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34739497/article/details/78001488

版权

本文介绍了使用Python进行《三国演义》人物出场次数统计的项目，包括项目起因、前期准备、项目进行及总结。通过jieba分词库处理中文文本，以'gb18030'编码读取文件，统计并排序人物出场次数，最终输出结果并绘制气泡图。初步展示了Python在文学数据分析中的应用。

摘要由CSDN通过智能技术生成

项目起因及意义

起初在浏览知乎时看见一篇文章觉得很有意思（用Python分析《红楼梦》），此文章较长，题主采用了一系列方法分析红楼梦前八十回和后四十回是否为同一个人所写，虽然题主贴上了部分实现的截图，我就想试着来实现一遍，但由于目前能力有限，一些机器学习算法不够了解，加上python又是刚刚学，所以我打算先结合《Python语言程序设计基础》这本书上的例子—-《三国演义》人物出场统计来作为此系列博客第一篇，后续等能力足矣会陆陆续续补上。

前期准备

三国里人物众多，我们需要对人物出场次数统计，中文文章需要分词才能进行词频统计，这里我们用到第三方库jieba，这里我就不提供下载方法了，然后我们需要《三国演义》的电子书网上都有，很容易下载。

项目进行

将文本数据导入pycharm

import jieba
txt = open("三国演义.txt", "r", encoding="gb18030").read()

这里写图片描述

这里写图片描述
这里的编码格式一开始我是按照书上‘utf-8’格式读取，发现会乱码&#x

最低0.47元/天解锁文章

一个追逐自我的程序员

关注

3
点赞
踩
41

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。