用Python来理一理红楼梦里的那些关系

本文介绍了如何使用Python读取红楼梦文本,进行分词处理,识别人物关系,并通过Pyecharts生成关系图表,展示了人物之间的互动频次。
摘要由CSDN通过智能技术生成

今天,我们一起用 Python 来理一理红楼梦里的那些关系。

不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也坚定地认为,红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!而红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。

好了,不酸了,开干。

数据准备

  1. 红楼梦 TXT 文件一份

  2. 金陵十二钗 + 贾宝玉 人物名称列表

人物列表内容如下:

宝玉 nr  
黛玉 nr  
宝钗 nr  
湘云 nr  
凤姐 nr  
李纨 nr  
元春 nr  
迎春 nr  
探春 nr  
惜春 nr  
妙玉 nr  
巧姐 nr  
秦氏 nr  

这份列表,同时也是为了做分词时使用,后面的 nr 就是人名的意思。

数据处理

读取数据并加载词典

    with open("红楼梦.txt", encoding='gb18030') as f:  
        honglou = f.readlines()  
    jieba.load_userdict("renwu_forcut")  
    renwu_data = pd.read_csv("renwu_forcut", header=-1)  
    mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]

这样,我们就把红楼梦读取到了 honglou 这个变量当中,同时也通过 load_userdict 将我们自定义的词典加载到了 jieba 库中。

对文本进行分词处理并提取

tmpNames = []  
    names = {}  
    relationships = {}  
    for h in honglou:  
        h.replace("贾妃", "元春")  
        h.replace("李宫裁", "李纨")  
        poss = pseg.cut(h)  
        tmpNames.append([])  
        for w in poss:  
            if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist:  
                continue  
            tmpNames[-1].append(w.word)  
            if names.get(w.word) is None:  
                names[w.word] = 0  
            relationships[w.word] = {}  
            names[w.word] += 1  

  • 首先,因为文中"贾妃", “元春”,“李宫裁”, “李纨” 混用严重,所以这里直接做替换处理。

  • 然后使用 jieba 库提供的 pseg 工具来做分词处理,会返回每个分词的词性。

  • 之后做判断,只有符合要求且在我们提供的字典列表里的分词,才会保留。

  • 一个人每出现一次,就会增加一,方便后面画关系图时,人物 node 大小的确定。

  • 对于存在于我们自定义词典的人名,保存到一个临时变量当中 tmpNames。

处理人物关系

    for name in tmpNames:  
        for name1 in name:  
            for name2 in name:  
                if name1 == name2:  
                    continue  
                if relationships[name1].get(name2) is None:  
                    relationships[name1][name2] = 1  
                else:  
                    relationships[name1][name2] += 1

对于出现在同一个段落中的人物,我们认为他们是关系紧密的,每同时出现一次,关系增加1.

保存到文件

    with open("relationship.csv", "w", encoding='utf-8') as f:  
        f.write("Source,Target,Weight\n")  
        for name, edges in relationships.items():  
            for v, w in edges.items():  
                f.write(name + "," + v + "," + str(w) + "\n")  
  
    with open("NameNode.csv", "w", encoding='utf-8') as f:  
        f.write("ID,Label,Weight\n")  
        for name, times in names.items():  
            f.write(name + "," + name + "," + str(times) + "\n")
  • 文件1:人物关系表,包含首先出现的人物、之后出现的人物和一同出现次数

  • 文件2:人物比重表,包含该人物总体出现次数,出现次数越多,认为所占比重越大。

制作关系图表

使用 pyecharts 作图

def deal_graph():  
    relationship_data = pd.read_csv('relationship.csv')  
    namenode_data = pd.read_csv('NameNode.csv')  
    relationship_data_list = relationship_data.values.tolist()  
    namenode_data_list = namenode_data.values.tolist()  
  
    nodes = []  
    for node in namenode_data_list:  
        if node[0] == "宝玉":  
            node[2] = node[2]/3  
        nodes.append({"name": node[0], "symbolSize": node[2]/30})  
    links = []  
    for link in relationship_data_list:  
        links.append({"source": link[0], "target": link[1], "value": link[2]})  
  
    g = (  
        Graph()  
        .add("", nodes, links, repulsion=8000)  
        .set_global_opts(title_opts=opts.TitleOpts(title="红楼人物关系"))  
    )  
    return g  

  • 首先把两个文件读取成列表形式

  • 对于“宝玉”,由于其占比过大,如果统一进行缩放,会导致其他人物的 node 过小,展示不美观,所以这里先做了一次缩放

最后得出的关系图

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取保证100%免费

  • 26
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值