绘制作者共现和关键词共现图教学

需要的作者共现、关键词共现次数
使用到的工具包括python和gephi
注意:gephi的安装需要java支持。

1、数据准备

在对某领域的学术论文进行描述性统计时,最常需要的是统计关键词/作者出现次数/发文数,关键词/作者共现次数。
数据处理方法->: 词频统计和共现分析
代码见以上的链接,本节展示处理前后的结果。

1.1 作者词频

图1
如上图所示,列表中一列数据为作者,每篇文章一行,一个单元格包括该文全部作者,且用英文分号隔开。运行代码之后,生成表格,手工降序排列即可。
在这里插入图片描述

1.2 作者共现

该链接的第二部分统计共现,需要一份文件名为一行作者.txt的文件,如下图。生成方法时手工将作者合并为一行,每篇论文直接通过“//”连接。
建议使用notepad++进行换行符的替换,notepad++有合并行的功能(whatever,能够得到类似下图的txt文件即可)。
在这里插入图片描述
运行代码之后,对生成的表格进行人工降序,得到下图。
在这里插入图片描述
至此,数据准备部分完成 。接下来展示真正的技术了。

2、形成gephi可读的数据格式

需要两份Excel文件,一般可命名为point和edge。
edge.xlsx形如下图。通过作者共现的表格结果得到。注意表头需要改为Source, Target, Weight, Type,其中Weight代表共现次数,Type为Undirected,表示无向图(有向图暂时我还没有用过)。
有一点需要注意,大部分作者共现次数为1,根据数据的需要有时可以不考虑。
在这里插入图片描述
接下来构造point.xlsx文件。
即把上图的前两列放入新的表格,合并为1列,之后去重。(按人话来说,就是把边edge数据里面出现的作者唯一化)。去重之后放在A列,表头名为Id,此时B列和A列的数据一模一样,除了表头为Label。见下图。
在这里插入图片描述

3、数据准备完成,开始准备绘图

史上最细致的讲解,保证最好看的绘图。

3.1 数据导入

1、新建工程
在这里插入图片描述
2、在数据资料选项卡,选择节点->输入电子表格。
在这里插入图片描述
在这里插入图片描述
3、正常点击下一步,在最后确定之前,选择添加到当前的workspace
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4、节点数据导入之后,点击“复制列数据”Label
在这里插入图片描述
5、点击好
在这里插入图片描述
6、导入节点数据,同样打开。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
7、此时,框内显示节点数和边数,箭头处同样要选添加到当前的workspace。这个很重要,不选就gg。
在这里插入图片描述
至此,数据导入成功。

3.2 绘图调整

1、选择预览选项卡,选中标签,刷新后可见上图。此时细心的同学会发现,标签在黑点的后面,需要做一步小设置进行标签上层显示。
在这里插入图片描述
2、将设置旁边的管理渲染器,下面的缺省节点标签,挪到最上面。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
再次刷新即可。

3、调整节点大小和颜色。
在这里插入图片描述

点击调色板在这里插入图片描述
数据比节点152少就可以,但是数字越大,运行时间越长。这里我填140.
在这里插入图片描述

设置完成点击应用。在这里插入图片描述
设置节点大小,选择 ranking->度。
在这里插入图片描述
选择最小和最大尺寸,点击应用。
在这里插入图片描述
选择一个布局,可以自己不断尝试新布局。
在这里插入图片描述
点击运行,可自行停止。
在这里插入图片描述
接下来就是愉快的分析啦。
over is Over——Lee

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值