最近把红楼梦又抽空看了一遍,古典中的经典,我真无法用言辞赞美她。今天,想跟大家一起用 Python 来理一理红楼梦中的的那些关系
不要问我为啥是红楼梦,而不是水浒三国或西游,都是经典,但我个人还是更喜欢偏古典的书,红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。
好了好了这些都不重要,重要的是我们今天要用Python来理红楼梦的关系!
数据准备红楼梦 TXT 文件一份
金陵十二钗 + 贾宝玉 人物名称列表
人物列表内容如下:
宝玉 nr
黛玉 nr
宝钗 nr
湘云 nr
凤姐 nr
李纨 nr
元春 nr
迎春 nr
探春 nr
惜春 nr
妙玉 nr
巧姐 nr
秦氏 nr
这份列表,同时也是为了做分词时使用,后面的 nr 就是人名的意思。
数据处理
读取数据并加载词典with open("红楼梦.txt", encoding='gb18030') as f:
honglou = f.readlines()
jieba.load_userdict("renwu_forcut")
renwu_data = pd.read_csv("renwu_forcut", header=-1)
mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]
这样