前言
今天,一起用 Python 来理一理红楼梦里的那些关系
不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!而红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。
好了,不酸了,开干。
数据准备
红楼梦 TXT 文件一份
金陵十二钗 + 贾宝玉 人物名称列表
人物列表内容如下:
宝玉 nr
黛玉 nr
宝钗 nr
湘云 nr
凤姐 nr
李纨 nr
元春 nr
迎春 nr
探春 nr
惜春 nr
妙玉 nr
巧姐 nr
秦氏 nr
这份列表,同时也是为了做分词时使用,后面的 nr 就是人名的意思。
数据处理
读取数据并加载词典
with open("红楼梦.txt", encoding='gb18030') as f:
honglou = f.readlines()
jieba.load_userdict("renwu_forcut")
renwu_data = pd.read_csv("renwu_forcut", header=-1)
mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]
这样,我们就把红楼梦读取到了 h