初探——数说《红楼》

     作者:Seanboy

     来源:Seanboy

数据是信息的表现形式和载体,文字是记录思想和承载语言的符号,两者同为信号传递的工具,一个摩登,一个经典,他们既互相联系又互相补充。自2013“大数据(big data)元年”以来,数据已经越来越成为我们交流探讨的热门话题,因为几乎所有人都意识到,数据能产生价值,数据能推动进步。《红楼梦》作为我国古典文学的巅峰,被誉为“中国封建社会的百科全书”,曹雪芹也自称“批阅十载,增删五次”,其“字字句句皆是血”。当数据分析遇上文学巨著,究竟能碰撞出怎样的火花呢?说实话,就连作者都等不及了!

赶快开始阅读吧!!!

工作准备

在我们分析之前我们要做一些准备工作:

1. 装有Python、Excel的计算机一台

2. 获取《红楼梦》电子版全文

3. 阅读《红楼梦》全文(至少要知道里面有哪些人物吧)

为了帮助小伙伴们早点进入正题,作者这里直接公布通关攻略啦!

首先,给自己的电脑装上Python编程软件,安装wordcloud、jieba等库文。

其次,在网上直接下载或用Python爬虫爬取《红楼梦》电子版全文,转换成txt格式备用,本文分析使用的这一版本《红楼梦》约86万字。

最后,也是最重要的就是阅读《红楼梦》了,如果您早已拜读过,那么就只需跟着作者简单回顾下,闭上眼睛好好回忆一下,里面的人物你还记得多少,

1. 贾宝玉是宁国府的还是荣国府的?

2. 贾赦、贾琏、贾蓉、贾珍的辈分关系是怎么样的?

3. 在《红楼梦》后面,远嫁他乡的是元春、迎春、探春、惜春中的谁?

如果你能立马回答得出来,那么恭喜您,准备工作第3步可跳过。

如果你隐隐约约有些印象,但又记得不确切,那也没关系,我们先一起来看一下下面这张红楼主要人物关系简表,稍微梳理梳理。

好,接下来我们进入数据分析的部分。

词云分析

在分析词云之前我们先大概的介绍下词云制作过程。

利用前面我们装好相应库文件的Python编程软件进行操作,可以细分为四个步骤:

1. 在程序中写入《红楼梦》电子书文件地址及名称

2. 在程序中写入“中文停用词表”文件地址及名称

3. 在程序中写入底板样式图片的文件地址及名称

4. 生成《红楼梦》全文词云

整个过程执行下来,最后生成的词云的结果如下图所示:

一眼望去,最容易发现的应该是位于图片最中央最大的“宝玉”二字,这意味着“宝玉”是全篇小说中出现频率最高的词,那么“宝玉”二字在全文中出现了多少次呢?各位小伙伴们可以开动你的脑筋,在心底默默猜出一个数或者范围,是200?500?1000?2000?还是3000呢?记住你的数,谜底将在下文为您揭晓!

观察整个词云,可以看到在“宝玉”周围还有很多比较大的词,如“贾母”、“黛玉”、“宝钗”、“凤姐”、“袭人”、“王夫人”、“贾政”、“贾琏”等,当然他们都是小说中的重要人物。除此之外我们还可以发现像“老太太”、“姑娘”、“奶奶”、“老爷”这样常见的称谓词所占位置也是比较大。词云上的词显示的越大就说明该词在文中出现的频率也就越高,相应的,词越小,表明其出现的频率越低,对于那些没有上榜的词语,那就表明它们出现的频率更低了。然而词语的颜色和字体都是按照预先设定或者随机生成的,只起到优化展示效果的作用。

数据分析

使用Python对《红楼梦》电子版全文进行词频统计,将统计结果转入Excel归类分析,可以发现,在《红楼梦》中出现的高频词语,大致的可以分为三类——角色名称、人物称谓以及故事场景。

我们现在来看在书中出现频次较多的人物,如下图所示:

首先是超级梯队,也就是《红楼梦》总出现频次最多的三位角色。和上文词云分许一致,出现次数最多的人是“面若中秋之月,色如春晓之花,鬓若刀裁,眉如墨画,鼻如悬胆,睛若秋波,虽怒时而似笑、即暝视而有情”的“贾宝玉”,高达3912次,这也反应了“宝玉”作为全文的第一主角的地位,不知您刚才的猜测和这个数据是否接近呢?我们接下来看,全文出现频次第二的是和善而又精明、慈悲而又刚直的“贾母”,共2569次,这也印证了“贾母”作为“贾史王薛”四大家族中最高权力掌握者的地位及威望。第三名是“一双丹凤三角眼,两弯柳叶掉梢眉,身材苗条,体态风骚,粉面含威春不露,丹唇未启笑先闻,未见其人先闻其声”且号称“凤辣子”的“王熙凤”,出现频次为1729次之多。

其次是一级梯队,也就是文中出现频次在第4~10位的7名角色,他们分别是“两弯似蹙非蹙笼烟眉,一双似喜非喜含情目,态生两靥之愁,姣袭一身之病;闲静如姣花照水,形动如弱柳扶风”且位列“金陵十二钗之冠”的“林黛玉”,其次是性情温柔诚厚的“花袭人”,宝玉的母亲“王夫人”以及“脸若银盆,眼同水杏,唇不点而丹,眉下画而横翠,肌肤也丰泽而白皙”的“薛宝钗”,纨绔公子“贾琏”、陪嫁丫头“平儿”、宝玉父亲“贾政”、宝钗母亲“薛姨妈”。

接下来是二级梯队,即书中出现频次位于11~25位的15个人物。他们分别是“探春”、“紫鹃”、“鸳鸯”、“湘云”、“李纨”、“晴雯”、“刘姥姥”、“邢夫人”、“贾珍”、“香菱”、“尤氏”、“惜春”、“薛潘”、“贾赦”、“周瑞家”。

然后是第三梯队,是书中出现频次为第26~50位的25位角色。他们分别为“贾芸”、“妙玉”、“雪雁”、“贾雨村”、“林之孝”、“贾蓉”、“迎春”、“赵姨娘”、“金桂”、“芳官”、“贾环”、“尤二姐”、“宝琴”、“秦钟”、“秋纹”、“雪雁”、“宝蟾”、“湘莲”、“冯紫英”、“琥珀”、“贾兰”、“彩云”、“秦氏”、“司棋”。

最后是第四梯队,也即上图中没有展示出来的人物。例如“金钏儿”、“麝月”、“抱琴”、“碧痕”、“焦大”、“贾瑞”、“蒋玉菡”、“癞和尚”、“跛道人”等。

下面我们来分析一下《红楼梦》中常见的人物称谓,如下图所示:

可以发现出现频次最高的依次为“姑娘”、“丫头”、“太太”、“奶奶”、“老爷”、“姐姐”、“婆子”、“妹妹”、“媳妇”、“姊妹”、“丫鬟”、“小厮”、“哥哥”、“母亲”、“哥儿”等。这一方面是由小说中的各种人物关系造成的,也反映故事发生所在地域的常用称谓,还可以映射出作者曹雪芹写作的用词习惯。

最后我们来看下《红楼梦》中故事发生场景的出现频次,统计出来如下图所示:

从高到底依次为“荣国府”、“怡红院”、“潇湘馆”、“宁国府”、“大观园”、“栊翠庵”、“梨香院”、“稻香村”等。

作者在这里提出一个小小问题,你知道以上场景分别是谁的住所吗?欢迎各位小伙伴们留言回答!

当然,近百万字的《红楼梦》,正如曹雪芹自己所言:

满纸荒唐言,一把辛酸泪。

都云作者痴,谁解其中味?

绝非仅靠一些简单数据就可以分析得透彻的,本文仅仅为爱好数据分析、Python编程或者“红学”的读者提供一些参考。

—END—

◆ ◆ ◆  ◆ ◆

长按二维码关注我们


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:

猜你喜欢

 笑死人不偿命的知乎沙雕问题排行榜

 用Python扒出B站那些“惊为天人”的阿婆主!

 全球股市跳水大战,谁最坑爹!

 上万条数据撕开微博热搜的真相!

 你相信逛B站也能学编程吗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值