文献关键词共现矩阵python实现

本文介绍了文献关键词的概念及其在科技论文中的重要性,接着讲解了共现矩阵在揭示主题词间联系的作用。通过Python,从CNKI获取论文关键词数据,进行词频统计、高频词选取,最终生成高频词共现矩阵,以深入理解研究领域的热点。
摘要由CSDN通过智能技术生成

预备知识:

文章关键词

关键词是指表示文献实质意义的那些名词或词组,常出现在文献篇名或文献正文中。

关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。

关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国Chemical Abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注关键词或叙词,文献数据库就不会收录此类文章,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该成果的利用率。

共现矩阵

通过对高频主题词的词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些主题词按照出现频次由高到低的排列还不能表现出这些高频主题词之间的联系,因此我们可以采用共现分析的技术来进一步挖掘这些主题词之间的联系。主题词的共现分析是根据主题词在同一篇论文中共同出现的次数来表示主题词之间的联系。一般认为,如果两个主题词频繁在同一篇论文中同时出现,往往表明这两个主题词之间具有比较密切的联系。这就是共现分析的理论基础。

python实现

文章关键词数据获取

在cnki中检索相关论文,如“中医”,在检索结果页面选择导出,导出格式自选,本文仅分析关键词共现,所以只选择文章名和关键词。如下图。

高频词共现矩阵是指将一篇文本中出现频率较高的词语进行统计,并计算这些词语之间出现的共现次数,得到一个共现矩阵。这个共现矩阵可以作为文本的特征表示,用于文本分类、聚类等应用。 以下是一个使用Python生成高频词共现矩阵的代码示例: 1. 首先导入必要的库: ``` import numpy as np import pandas as pd from nltk.tokenize import word_tokenize from nltk.corpus import stopwords ``` 2. 定义生成共现矩阵的函数: ``` def cooc_matrix(text, num_words=1000, window_size=5): # 分词 tokens = word_tokenize(text.lower()) # 去掉停用词 stop_words = set(stopwords.words('english')) tokens = [token for token in tokens if token not in stop_words] # 统计词语频率 word_freq = pd.Series(tokens).value_counts()[:num_words] # 取出频率前num_words的词语 words = word_freq.index.tolist() # 初始化共现矩阵 cooc = np.zeros((num_words, num_words)) # 遍历每个词语 for i, word in enumerate(words): # 遍历当前词语周围的词语 for j in range(i - window_size, i + window_size): # 如果词语在共现窗口内并且不是当前词语本身 if j >= 0 and j < len(words) and words[j] != word: # 更新共现矩阵 cooc[i, j] = cooc[j, i] = tokens.count(word + ' ' + words[j]) return cooc, words ``` 3. 调用函数生成共现矩阵并进行演示: ``` # 读入文本 text = open('sample.txt').read() # 生成共现矩阵 cooc, words = cooc_matrix(text) # 打印共现矩阵和词语列表 print(cooc) print(words) ``` 以上代码可以实现文本的高频词共现矩阵的生成,可以根据不同的需求调整参数来适配不同的文本。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值