1、工具介绍
jieba
jieba分词,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在这里,我们需要用他的分词功能来提取文本中的人名。
gephi
gephi是一个开源的复杂网络数据可视化软件,可用于探索数据分析、链路分析、社交网络分析、生物网络分析等。我们需要把数据处理成gephi可接受的csv格式,然后再进行绘制。感兴趣的可以查看使用教程
Gephi 入门使用_网络_飞羽的博客-CSDN博客blog.csdn.net2、背景
数据处理方式
在词云中,我们只能通过词的大小来了解该词对于文本集是否起关键作用,无法探究人物之间的关系;在关系网图中,不仅可以了解词的关键程度,还能发现人物之间的联系,更能说明问题。由此可见,绘制词云时,我们只需要提取两列数据,一列人名,一列为频率。而绘制网络图时,就需要两组数据。网络图,顾名思义,就是一张图。所有的图都是由节点和边构成的。节点数据也就是