用python分析四大名著(一)

本文介绍了使用Python进行《三国演义》人物出场次数统计的项目,包括项目起因、前期准备、项目进行及总结。通过jieba分词库处理中文文本,以'gb18030'编码读取文件,统计并排序人物出场次数,最终输出结果并绘制气泡图。初步展示了Python在文学数据分析中的应用。
摘要由CSDN通过智能技术生成

项目起因及意义

起初在浏览知乎时看见一篇文章觉得很有意思(用Python分析《红楼梦》),此文章较长,题主采用了一系列方法分析红楼梦前八十回和后四十回是否为同一个人所写,虽然题主贴上了部分实现的截图,我就想试着来实现一遍,但由于目前能力有限,一些机器学习算法不够了解,加上python又是刚刚学,所以我打算先结合《Python语言程序设计基础》这本书上的例子—-《三国演义》人物出场统计来作为此系列博客第一篇,后续等能力足矣会陆陆续续补上。

前期准备

三国里人物众多,我们需要对人物出场次数统计,中文文章需要分词才能进行词频统计,这里我们用到第三方库jieba,这里我就不提供下载方法了,然后我们需要《三国演义》的电子书网上都有,很容易下载。

项目进行

  1. 将文本数据导入pycharm
import jieba
txt = open("三国演义.txt", "r", encoding="gb18030").read()

这里写图片描述

这里写图片描述
这里的编码格式一开始我是按照书上‘utf-8’格式读取,发现会乱码&#x

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值