python 小说人物分析_用Python来看金庸先生的小说,这一生向大侠致敬

本文通过Python对金庸先生的《天龙八部》和《鹿鼎记》进行人物分析,包括出场率统计、用词习惯探讨和人物关系挖掘,揭示小说中的隐藏故事和作者的写作风格。
摘要由CSDN通过智能技术生成

f4224a5c8b5b1852ed83aeeee7dd4567dd68af64.jpg

从小就是武侠迷,可以说是看着金庸先生的作品长大的,无论是书还是电视剧都非常着迷,飞雪连天射白鹿,笑书神侠倚碧鸳。金老一生共著15部武侠作品,在那个电子产品和互联网尚未普及的年代带给我们太多的欢乐和回忆,今天,我们就用Python来探索一下金老武侠小说。

加小编Python学习群:832339352可以获取数十套PDF文档哦!

7ea786aad63f6969b39a6756bab4c78ef8f7d256.png

01.谁是金庸小说的主角

听完射雕英雄传,我们来看一下我比较喜欢的天龙八部,天龙八部是一部多主角小说,萧峰、虚竹、段誉三兄弟各有际遇,曾经还因谁才是第一主角的问题引发过一阵争论。

现在我们已经懂得用数据思维来考虑问题,看看怎样对中文小说进行数据分析吧。出场率是评价一个小说人物的重要指标,我们就先来对《天龙八部》中人物的出场情况进行一下统计分析吧。

1).分词

中文分词是中文信息处理的基础,但是由于汉语的博大精深,中文分词的难度比英文要高出一大截,好在python有很多用于中文分词的库,jieba就是其中受欢迎程度比较高的一款,下面我们就来体会一下它的妙用。

因为文件太大,每次只读取固定长度的字符串c08ab5a02f8f37aa6786a1635dc42f0afa394d68.jpg

jieba用起来非常简单,短短几行代码就完成了分词工作(下图),可是...仔细一看发现哪里不对了

“段誉”作为一个姓名没有被单独分出来,而是和其他一些动词连在一起,另外也有一些角色名字被拆分成了两个甚至更多的单词,例如“神仙姊姊”被分成了“神仙”和“姊姊”两个词。

不过这也难怪

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值