作者:Seanboy
来源:Seanboy
数据是信息的表现形式和载体,文字是记录思想和承载语言的符号,两者同为信号传递的工具,一个摩登,一个经典,他们既互相联系又互相补充。自2013“大数据(big data)元年”以来,数据已经越来越成为我们交流探讨的热门话题,因为几乎所有人都意识到,数据能产生价值,数据能推动进步。《红楼梦》作为我国古典文学的巅峰,被誉为“中国封建社会的百科全书”,曹雪芹也自称“批阅十载,增删五次”,其“字字句句皆是血”。当数据分析遇上文学巨著,究竟能碰撞出怎样的火花呢?说实话,就连作者都等不及了!
赶快开始阅读吧!!!
工作准备
在我们分析之前我们要做一些准备工作:
1. 装有Python、Excel的计算机一台
2. 获取《红楼梦》电子版全文
3. 阅读《红楼梦》全文(至少要知道里面有哪些人物吧)
为了帮助小伙伴们早点进入正题,作者这里直接公布通关攻略啦!
首先,给自己的电脑装上Python编程软件,安装wordcloud、jieba等库文。
其次,在网上直接下载或用Python爬虫爬取《红楼梦》电子版全文,转换成txt格式备用,本文分析使用的这一版本《红楼梦》约86万字。
最后,也是最重要的就是阅读《红楼梦》了,如果您早已拜读过,那么就只需跟着作者简单回顾下,闭上眼睛好好回忆一下,里面的人物你还记得多少,
1. 贾宝玉是宁国府的还是荣国府的?
2. 贾赦、贾琏、贾蓉、贾珍的辈分关系是怎么样的?
3. 在《红楼梦》后面,远嫁他乡的是元春、迎春、探春、惜春中的谁?
如果你能立马回答得出来,那么恭喜您,准备工作第3步可跳过。
如果你隐隐约约有些印象,但又记得不确切,那也没关系,我们先一起来看一下下面这张红楼主要人物关系简表,稍微梳理梳理。
好,接下来我们进入数据分析的部分。
词云分析
在分析词云之前我们先大概的介绍下词云制作过程。
利用前面我们装好相应库文件的Python编程软件进行操作,可以细分为四个步骤:
1. 在程序中写入《红楼梦》电子书文件地址及名称
2. 在程序中写入“中文停用词表”文件地址及名称
3. 在程序中写入底板样式图片的文件地址及名称
4. 生成《红楼梦》全文词云
整个过程执行下来,最后生成的词云的结果如下图所示:
一眼望去,最容易发现的应该是位于图片最中央最大的“宝玉”二字,这意味着“宝玉”是全篇小说中出现频率最高的词,那么“宝玉”二字在全文中出现了多少次呢?各位小伙伴们可以开动你的脑筋,在心底默默猜出一个数或者范围,是200?500?1000?2000?还是3000呢?记住你的数,谜底将在下文为您揭晓!
观察整个词云,可以看到在“宝玉”周围还有很多比较大的词,如“贾母”、“黛玉”、“宝钗”、“凤姐”、“袭人”、“王夫人”、“贾政”、“贾琏”等,当然他们都是小说中的重要人物。除此之外我们还可以发现像“老太太”、“姑娘”、“奶奶”、“老爷”这样常见的称谓词所占位置也是比较大。词云上的词显示的越大就说明该词在文中出现的频率也就越高,相应的,词越小,表明其出现的频率越低,对于那些没有上榜的词语,那就表明它们出现的频率更低了。然而词语的颜色和字体都是按照预先设定或者随机生成的,只起到优化展示效果的作用。
数据分析
使用Python对《红楼梦》电子版全文进行词频统计,将统计结果转入Excel归类分析,可以发现,在《红楼梦》中出现的高频词语,大致的可以分为三类——角色名称、人物称谓以及故事场景。
我们现在来看在书中出现频次较多的人物,如下图所示:
首先是超级梯队,也就是《红楼梦》总出现频次最多的三位角色。和上文词云分许一致,出现次数最多的人是“面若中秋之月,色如春晓之花,鬓若刀裁,眉如墨画,鼻如悬胆,睛若秋波,虽怒时而似笑、即暝视而有情”的“贾宝玉”,高达3912次,这也反应了“宝玉”作为全文的第一主角的地位,不知您刚才的猜测和这个数据是否接近呢?我们接下来看,全文出现频次第二的是和善而又精明、慈悲而又刚直的“贾母”,共2569次,这也印证了“贾母”作为“贾史王薛”四大家族中最高权力掌握者的地位及威望。第三名是“一双丹凤三角眼,两弯柳叶掉梢眉,身材苗条,体态风骚,粉面含威春不露,丹唇未启笑先闻,未见其人先闻其声”且号称“凤辣子”的“王熙凤”,出现频次为1729次之多。
其次是一级梯队,也就是文中出现频次在第4~10位的7名角色,他们分别是“两弯似蹙非蹙笼烟眉,一双似喜非喜含情目,态生两靥之愁,姣袭一身之病;闲静如姣花照水,形动如弱柳扶风”且位列“金陵十二钗之冠”的“林黛玉”,其次是性情温柔诚厚的“花袭人”,宝玉的母亲“王夫人”以及“脸若银盆,眼同水杏,唇不点而丹,眉下画而横翠,肌肤也丰泽而白皙”的“薛宝钗”,纨绔公子“贾琏”、陪嫁丫头“平儿”、宝玉父亲“贾政”、宝钗母亲“薛姨妈”。
接下来是二级梯队,即书中出现频次位于11~25位的15个人物。他们分别是“探春”、“紫鹃”、“鸳鸯”、“湘云”、“李纨”、“晴雯”、“刘姥姥”、“邢夫人”、“贾珍”、“香菱”、“尤氏”、“惜春”、“薛潘”、“贾赦”、“周瑞家”。
然后是第三梯队,是书中出现频次为第26~50位的25位角色。他们分别为“贾芸”、“妙玉”、“雪雁”、“贾雨村”、“林之孝”、“贾蓉”、“迎春”、“赵姨娘”、“金桂”、“芳官”、“贾环”、“尤二姐”、“宝琴”、“秦钟”、“秋纹”、“雪雁”、“宝蟾”、“湘莲”、“冯紫英”、“琥珀”、“贾兰”、“彩云”、“秦氏”、“司棋”。
最后是第四梯队,也即上图中没有展示出来的人物。例如“金钏儿”、“麝月”、“抱琴”、“碧痕”、“焦大”、“贾瑞”、“蒋玉菡”、“癞和尚”、“跛道人”等。
下面我们来分析一下《红楼梦》中常见的人物称谓,如下图所示:
可以发现出现频次最高的依次为“姑娘”、“丫头”、“太太”、“奶奶”、“老爷”、“姐姐”、“婆子”、“妹妹”、“媳妇”、“姊妹”、“丫鬟”、“小厮”、“哥哥”、“母亲”、“哥儿”等。这一方面是由小说中的各种人物关系造成的,也反映故事发生所在地域的常用称谓,还可以映射出作者曹雪芹写作的用词习惯。
最后我们来看下《红楼梦》中故事发生场景的出现频次,统计出来如下图所示:
从高到底依次为“荣国府”、“怡红院”、“潇湘馆”、“宁国府”、“大观园”、“栊翠庵”、“梨香院”、“稻香村”等。
作者在这里提出一个小小问题,你知道以上场景分别是谁的住所吗?欢迎各位小伙伴们留言回答!
当然,近百万字的《红楼梦》,正如曹雪芹自己所言:
满纸荒唐言,一把辛酸泪。
都云作者痴,谁解其中味?
绝非仅靠一些简单数据就可以分析得透彻的,本文仅仅为爱好数据分析、Python编程或者“红学”的读者提供一些参考。
—END—
◆ ◆ ◆ ◆ ◆
长按二维码关注我们
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢