Python实现《人民的名义》关系可视化

通过《人民的名义》剧本,建立人物字典,利用共现原理挖掘人物关系,使用Gephi进行关系图绘制,揭示剧中人物间的复杂联系。在处理中解决停用词和特殊称呼问题,最终呈现清晰的关系网络。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

流程概述

  1. 在网上找到《人民的名义》剧本并下载
  2. 在网上查询《人民的名义》的一些主要人物,做一个人物字典
  3. 基于共现原理寻找人物关系
  4. 使用软件Gephi绘制关系图,将关系可视化

人物字典

在结巴分词中,人物姓名以标记”nr”来标志。

侯亮平 nr
李达康 nr 
达康  nr
沙瑞金 nr
沙书记 nr
高育良 nr
育良  nr
老师  nr
祁同伟 nr
陆亦可 nr
钟小艾 nr
高小琴 nr
吴惠芬 nr
欧阳菁 nr
赵瑞龙 nr
郑西坡 nr
赵东来 nr
梁璐  nr
季昌明 nr
程度  nr
丁义珍 nr
陈海  nr
赵德汉 nr
林华华 nr
周正  nr
陈岩石 nr
陈老 nr
刘新建 nr
蔡成功 nr
王馥真 nr
易学习 nr
田国福 nr
陈清泉 nr
刘姗  nr
陈群芳 nr
田杏枝 nr
张宝宝 nr
郑胜利 nr
孙连城 nr
肖钢玉 nr
吴心怡 nr
王大路 nr
秦局长 nr
周桂春 nr
王文革 nr
白处长 nr
孙海平 nr
毛娅  nr
张树立 nr
吴春林 nr
马文明 nr
金秘书 nr
侯浩然 nr
常成虎 nr
小皮球 nr
汤成兰 nr
李梁  nr
毕敬业 nr
何阿三 nr
张天峰 nr
尤瑞星 nr
陈文强 nr
杜伯仲 nr
美女老总 nr
老程 nr

基于人物共现的人物关系挖掘

我们假设两个人物在某一长度的文本中同时出现就认为这两个人物有关系,在这里我们选取这个长度为段落。即在同一段落中出现了两个不同的文本,即认为这两个人物有关系。

处理过程中的一些问题

  • 一些词汇如“林城”、“白云”、“吕州”等,它们的属性被归到了”nr”,而且出现次数较多,和一些人物共现次数较多,如果不做处理的话,它们将会出现在绘制的关系图中。在这里可以将这些词作为停用词梳理。
  • 一些人物之间常常会以亲密的词汇称呼对方,而且出现次数非常多,如果将这些词汇忽略,关系刻画可能会出现很大的偏差,如陈海和侯亮平之间的“猴子”,高育良和侯亮平、祁同伟之前的师生称呼。所以在分词之后,我们可以判断一下如果出现了这些亲密称呼,将其替代为他的姓名。

最终代码展示

# -*- encoding:utf-8 -*-
import jieba
import jieba.posseg as pseg
import codecs
import csv
stopwords=['吕州','林城','银行卡','明白','白云','嗡嗡嘤嘤',
           '阴云密布','雷声','陈大','谢谢您','安置费','任重道远',
          
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值