今天做的是小说人物关系图,小说是我最喜欢的一本,我看了好多遍,闲听落花的《盛华》。
共现:将每一段中的人物角色抽取出来,然后以段落为单位,统计两个角色同时出现的出现次数,并把结果存在一个二维矩阵之中。这个矩阵也可以作为关系图的矩阵,矩阵中的元素(统计的出现次数)就是边的权值。
#这个是标准语法,可以得到人物和人物出现的次数,《盛华》人物太多,且jieba.load_userdict在我这里没有反应,我改了一下代码。
import os, sys
import jieba, codecs, math
import jieba.posseg as pseg
names = {} # 姓名字典
relationships = {} # 关系字典
lineNames = [] # 每段内人物关系
jieba.load_userdict("dict.txt") # 加载字典
with codecs.open("busan.txt", "r", "utf8") as f:
for line in f.readlines():
poss = pseg.cut(line) # 分词并返回该词词性
lineNames.append([]) # 为新读入的一段添加人物名称列表
for w in poss:
if w.flag != "nr" or len(w.word) < 2:
continue # 当分词长度小于2或该词词性不为nr时认为该词不为人名
lineNames[-1].append(w.word) # 为当前段的环境增加一个人物
if names.get(w.word) is None:
names[w.word] = 0
relationships[w.word] = {}
names[w.word] += 1 # 该人物出现次数加 1
#看一下效果
for name, times in names.items():
print(name, times)
import os, sys
import jieba, codecs, math
import jieba.posseg as pseg
names = {} # 姓名字典
relationships = {} # 关系字典
lineNames = [] # 每段内人物关系
words = [line.strip() for line in open("C:/Users/Dell/Desktop/郑佳重要/python/namedict.txt",encoding='UTF-8').readlines()]
#我把主要出场人物保存在words中,只统计在words中出现的人物之间的关系
with codecs.open("C:/Users/Dell/Desktop/郑佳重要/python/盛华.txt", "r") as f:
for line in f.readlines():
poss = pseg.cut(line) # 分词并返回该词词性
lineNames.append([]) # 为新读入的一段添加人物名称列表
for w in poss:
if w.word in words:
lineNames[-1].append(w.word)
if names.get(w.word) is None:
names[w.word] = 0
relationships[w.word] = {}
names[w.word] += 1
#此时得到的人物和频率会更整齐
#统计每个人出现的次数,和他们的共现次数
for line in lineNames: # 对于每一段
for name1 in line:
for name2 in line: # 每段中的任意两个人
if name1 == name2:
continue
if relationships[name1].get(name2) is None: # 若两人尚未同时出现则新建项
relationships[name1][name2]= 1
else:
relationships[name1][name2] = relationships[name1][name2]+ 1 # 两人共同出现次数加 1
with codecs.open("C:/Users/Dell/Desktop/郑佳重要/python/busan_node.csv", "w", "gbk") as f:
f.write("Id Label Weight\r\n")
for name, times in names.items():
f.write(name + " " + name + " " + str(times) + "\r\n")
with codecs.open("C:/Users/Dell/Desktop/郑佳重要/python/busan_edge.csv", "w", "gbk") as f:
f.write("Source Target Weight\r\n")
for name, edges in relationships.items():
for v, w in edges.items():
if w > 3:
f.write(name + " " + v + " " + str(w) + "\r\n")
此时会得到两个表,一个是单个人物在书中的出现次数,node表。另外一个是统计两个人物共现的次数edge表。
使用gephi做人物关系网图。《盛华》这本小说很长,两百多万字,且文章中名字并不十分统一,举例来说,李夏,阿夏,王妃都是一个人,所以统计并不精确。
gephi的这个页面真的好好看啊。
我最后做出来的关系图,说实话,真的丑,我下载的gephi预览模块不好用。
突然想起来我有tableau,顺便做个词云吧!用的是前面得到的node表,里面是单个人物在书中的出现次数。
1、打开node表
2、打开工作表1
把id列和Weight(频数)列放在下面的位置。
我有很多好看的字体。