最近帮王总做了一个文献关键词信息挖掘的简单工作,利用关键词的在不同文章中的共现信息,对关键词进行相似度的比较。主要使用到了SATI这个工具,当然为了把最后所有的图弄出来,还用到了Ucinet6,NetDraw还有spss。主要参考
刘启元, 叶鹰. 文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报,
2012(1):50-58.
1.使用SATI抽取关键词共现信息
这一次做的是国内校园欺凌文献关键词信息的挖掘,拿到手的数据已经是处理好的XML数据(如何从各大平台获得XML形式的数据不在本文讨论范围之内),用SATI直接打开,选择你需要的题录信息,笔者这里需要的是关键词频率,然后依次构建了三类共现矩阵:相似度,相异度和边数。关键词的个数设定为30。点击矩阵按钮等待生成然后保存Excel文件即可。
2.使用Ucinet进行层次聚类分析
层次聚类分析的原理很简单,其实用R语言或者Python写也比较方便,不过为了使用NetDraw画图,需要Uncinet生成的network文件,这里就用Ucinet来聚类了。