Python 红楼梦的字频与词频统计
使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词。
使用wordcloud生成词云。
其实除了停用词,程度词与否定词等也应该去除,但没有找到合适的词表。
字频:
字符 字频
了 13993
的 9862
不 9439
一 8160
道 7271
来 7189
人 6626
我 6204
是 6145
说 6108
这 5204
他 5193
你 5004
儿 4756
着 4105
去 4006
个 3983
也 3933
子 3896
玉 3877
有 3738
宝 3733
又 3677
们 3321
笑 3285
里 3084
贾 3005
只 2962
那 2932
见 2930
上 2594
好 2555
姐 2504
太 2466
家 2447
在 2401
就 2368
么 2363
便 2247
大 2219
头 2149
日 2113
听 2054
出 2051
得 2019
老 1994
下 1945
要 1866