预备知识:
文章关键词
关键词是指表示文献实质意义的那些名词或词组,常出现在文献篇名或文献正文中。
关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。
关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国Chemical Abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注关键词或叙词,文献数据库就不会收录此类文章,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该成果的利用率。
共现矩阵
通过对高频主题词的词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些主题词按照出现频次由高到低的排列还不能表现出这些高频主题词之间的联系,因此我们可以采用共现分析的技术来进一步挖掘这些主题词之间的联系。主题词的共现分析是根据主题词在同一篇论文中共同出现的次数来表示主题词之间的联系。一般认为,如果两个主题词频繁在同一篇论文中同时出现,往往表明这两个主题词之间具有比较密切的联系。这就是共现分析的理论基础。
python实现
文章关键词数据获取
在cnki中检索相关论文,如“中医”,在检索结果页面选择导出,导出格式自选,本文仅分析关键词共现,所以只选择文章名和关键词。如下图。