需要的作者共现、关键词共现次数
使用到的工具包括python和gephi
注意:gephi的安装需要java支持。
1、数据准备
在对某领域的学术论文进行描述性统计时,最常需要的是统计关键词/作者出现次数/发文数,关键词/作者共现次数。
数据处理方法->: 词频统计和共现分析
代码见以上的链接,本节展示处理前后的结果。
1.1 作者词频
如上图所示,列表中一列数据为作者,每篇文章一行,一个单元格包括该文全部作者,且用英文分号隔开。运行代码之后,生成表格,手工降序排列即可。
1.2 作者共现
该链接的第二部分统计共现,需要一份文件名为一行作者.txt的文件,如下图。生成方法时手工将作者合并为一行,每篇论文直接通过“//”连接。
建议使用notepad++进行换行符的替换,notepad++有合并行的功能(whatever,能够得到类似下图的txt文件即可)。
运行代码之后,对生成的表格进行人工降序,得到下图。
至此,数据准备部分完成 。接下来展示真正的技术了。
2、形成gephi可读的数据格式
需要两份Excel文件,一般可命名为point和edge。
edge.xlsx形如下图。通过作者共现的表格结果得到。注意表头需要改为Source, Target, Weight, Type,其中Weight代表共现次数,Type为Undirected,表示无向图(有向图暂时我还没有用过)。
有一点需要注意,大部分作者共现次数为1,根据数据的需要有时可以不考虑。
接下来构造point.xlsx文件。
即把上图的前两列放入新的表格,合并为1列,之后去重。(按人话来说,就是把边edge数据里面出现的作者唯一化)。去重之后放在A列,表头名为Id,此时B列和A列的数据一模一样,除了表头为Label。见下图。
3、数据准备完成,开始准备绘图
史上最细致的讲解,保证最好看的绘图。
3.1 数据导入
1、新建工程
2、在数据资料选项卡,选择节点->输入电子表格。
3、正常点击下一步,在最后确定之前,选择添加到当前的workspace
4、节点数据导入之后,点击“复制列数据”Label
5、点击好
6、导入节点数据,同样打开。
7、此时,框内显示节点数和边数,箭头处同样要选添加到当前的workspace。这个很重要,不选就gg。
至此,数据导入成功。
3.2 绘图调整
1、选择预览选项卡,选中标签,刷新后可见上图。此时细心的同学会发现,标签在黑点的后面,需要做一步小设置进行标签上层显示。
2、将设置旁边的管理渲染器,下面的缺省节点标签,挪到最上面。
再次刷新即可。
3、调整节点大小和颜色。
点击调色板
数据比节点152少就可以,但是数字越大,运行时间越长。这里我填140.
设置完成点击应用。
设置节点大小,选择 ranking->度。
选择最小和最大尺寸,点击应用。
选择一个布局,可以自己不断尝试新布局。
点击运行,可自行停止。
接下来就是愉快的分析啦。
over is Over——Lee