龙源期刊网
http://www.qikan.com.cn
基于
python
的数据处理和模糊层次聚类
作者:赵金晖
来源:《无线互联科技》
2018
年第
14
期
摘
要:《红楼梦》的作者问题一直是
“
红学研究
”
的热点。其中前
80
回和后
40
回分別由曹
雪芹和高鹗所书的说法广为流传。通过直接调用数据分析的软件可以直观地看到结果,但并不
能展示细节。文章将应用模糊层次聚类的方法,并详细展示主要步骤,比起均值聚类,文中的
方法更加贴近于人的思维,便于理解和学习,研究者可以通过训练,熟练掌握文本处理、矩阵
运算和编程等技巧。
关键词:
python
;层次聚类;模糊数学;红楼梦
《红楼梦》的作者问题一直是红学研究的热点。多位作者、不同时期的写作都可能是《红
楼梦》全本风格不一的原因。其中前
80
回和后
40
回分别由曹雪芹和高鹗所书的说法广为流
传。文章对这一假说进行简单的验证。本文取
1
—
70
回和
86
—
120
回进行聚类得出标准模型,
并用余下的
71
—
85
回测试标准模型并验证所选的关于《红楼梦》作者的假说。
1
验证准备步骤
验证准备工作主要分为以下
6
个步骤。
(
1
)分章存储《红楼梦》全本;(
2
)分词后获取各章节共有的词;(
3
)得到章节间联
系的模糊矩阵;(
4
)自下而上的层次聚类分析;(
5
)得到并验证标准模型;(
6
)扫描二维
码(见图
1
)查看代码和处理结果。
2
文本处理
利用正则表达式获取《红楼梦》各章标题,以字典的形式分章存储红楼梦,
key
为标题,
value
为每章文本。对全本和各章进行分词后获取公共的词列表,共
114
个。统计公共词个
数,得到长度为
114
的各章向量,如表
1
所示。
3
模糊向量和模糊矩阵
求
1
—
70
回和
86
—
120
回模糊向量集合
List_for_matrix_index
和章节间直接联系的模糊矩
阵
Direct_relation_matrix[i][j]
。
4
聚类