这个数据分析使用的是python语言,我安装了anaconda,是在jupyter notebook中做的。
首先需要引入可能用到的库:
小案例一是一个基本的文本词频统计
文本词频统计的结果如下(出现次数最多的108个词):
宋江:2428
两个:1660
一个:1338
李逵:1116
武松:1022
只见:906
如何:898
那里:844
哥哥:754
军马:704
头领:701
说道:691
林冲:670
众人:652
吴用:644
这里:599
兄弟:578
出来:546
卢俊义:541
梁山泊:533
小人:531
今日:516
这个:503
先锋:458
宋江道:445
好汉:422
便是:418
妇人:408
人马:407
起来:405
问道:393
不得:367
因此:366
三个:356
我们:355
次日:344
只是:341
不曾:341
如此:340
柴进:335
不知:333
不是:328
呼延灼:325
一面:324
且说:322
鲁智深:321
来到:320
不敢:315
却是:312
看时:310
将军:309
如今:308
原来:304
戴宗:303
山寨:302
正是:296
喝道:293
只得:293
一齐:283
兄长:279
当下:272
公孙胜:271
知府:271
大喜:269
里面:263
军士:263
商议:261
花荣:258
朱仝:255
小弟:253
燕青:250
天子:249
性命:249
秦明:249
前面:246
城中:246
将来:244
公人:244
东京:241
不要:241
不见:239
那个:238
上山:237
下山:236
喽罗:234
智深:234
李俊:231
一声:230
怎地:230
史进:229
弟兄:228
随即:227
一条:226
晁盖:225
只顾:224
收拾:222
甚么:221
四个:217
许多:216
答道:216
庄客:216
杨志:216
起身:214
听得:213
高太尉:213
银子:212
宋公明:212
下来:208
小案例二是一个基本的词云:
生成的词云图片:
小案例三是一个三十六天罡登场次数数据的柱状图:
结果截图:
我的这个数据分析相当的简略粗糙,例如我只统计了梁山好汉们的本名的出现次数,没有加上他们的绰号的出现次数。
从上面的数据可以看出,宋江出现的次数最多,不愧为主角。卢俊义和吴用出现的次数也不少。林冲出现的也挺多的。我本来认为武松和鲁智深出现的次数应该是差不多的,不过上面显示武松出现的次数要多很多。最让我意外的是李逵怎么出现了这么多次。
推荐b站up主“同济子豪兄”,我这里用到的相当一部分知识是我从他那里学到的。