python 小说分析_谁还没看过几本金庸小说?用Python分析一下当年最爱看的主角是谁...

deae86d7fac25668e154e5e14a2bad1c.png

6dc397d3929951926382a682ea88442a.png

jieba用起来非常简单,短短几行代码就完成了分词工作(下图),可是...仔细一看发现哪里不对了

“段誉”作为一个姓名没有被单独分出来,而是和其他一些动词连在一起,另外也有一些角色名字被拆分成了两个甚至更多的单词,例如“神仙姊姊”被分成了“神仙”和“姊姊”两个词。

不过这也难怪,中文的灵活性太强,一个词往往有多层含义和多种用法,看来直接使用jieba分词还是会有不小的误差,我们得想办法来解决这个问题,不然会对分析结果造成干扰。

5bd82089cd949bc1815e2b5b85492344.png

49acbc106285189163145a79f2d42255.png

d87895d9f36aaa056622965c9f455d44.png

现在是不是有一种“我为刀俎,它为鱼肉”的感觉了。经过简单的数据处理,我们得到了每个人物的名字在小说中出现的频次,由于萧峰和乔峰是同一个人,为了方便统计将两个名字的出场次合并。

然后取出场率排名前30位的角色数据,用图表的形式展示出来。

90e47caba669d6d6f625837e4bb3b1ab.png

927d468f9eb8f0f7b1e3f1a429ec09f9.png

其实《天龙八部》的中心思想就是“求不得”:

段誉不想学武功却练成了绝世神通

一心追求王语嫣最终美人对慕容复不离不弃

萧峰立志保卫大宋没想到自己居然是契丹人

决定与阿朱塞外牧马,然而造化弄人,心爱的人却死在自己手上

ad14a6a294e7bff7dbd827641c119af7.png

这里我们仅提取词长度不小于4的成语、俗语和短语进行分析。同时,考虑到某些人名(例如:上官婉儿、澹台灭明)等专有名词会对分析结果造成干扰,在分词取词的时候可以一并过滤掉,最终得到这样一份词语文件:

cef5b7845f4bfa46fe8e176092956085.png

2.云图

对用词习惯的分析更倾向于定性分析,我们这里使用词云图来作展示,首先绘制《萍踪侠影录》的词云图。

ca36822cb51c3c7937e91b0be8fa8e8e.png

我们可以看到在这篇小说中“微微一笑”、“哈哈大笑”、“大吃一惊”、“非同小可”等词语使用频率非常高,再来看另一部作品《女帝奇英传》,词云图如下:

b59c77dc1ade2c249c2445ae331d0799.png

12cf7002b71b65316bf93ebf081d1c80.png

进群:125240963   即可获取数十套PDF哦!

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值