COOC6.2增加同义词合并无意义词删除等功能

COOC6.2增加两个功能:
在这里插入图片描述

①将同义词合并功能集合到COOC中,原文链接:《《万能同义词合并5.0》一键批量合并+删除–CiteSpace、VOSviewer、ucinet、gephi等》

②将同义词+无意义词表一键转化为VOSviewer可以识别的格式,使VOSviewer也可以进行一键合并同义词与删除无意义词

该软件具备如下功能:
以下功能均适用于各大数据库、网络文本、贸易数据、董事关系、物流网络等数据,没有任何限制!

【0】一键合并同义词与删除无意义词
【1】一键统计频次
【2】一键做共现矩阵
【3】一键做相异矩阵
【4】一键做词篇矩阵
【5】一键做二模矩阵
【6】一键做基于主题的耦合矩阵
【7】一键做邻接表
【8】一键绘制网络图谱
【9】一键绘制聚类图谱

软件使用注意事项:(做不出图看第七条)
①做中文矩阵关键词之间需要用[英文状态下分号隔开],做英文矩阵关键词之间需要拥用[英文状态下分号+空格]隔开
②保证每个文件所在路径不要出现汉字
③结果出来后检查共现矩阵和频次表有无空白行,有的话删除。
④出现乱码时用WPS打开,不要用office
⑤做相异矩阵时一个入口相异矩阵做不成功直接换别的入口即可!
⑥如果频次表里的所有关键词都用完,需要手工在频次表最后一行末尾添加一行任意数据,如(a 0)
⑦如果图谱绘制不出图,将你的矩阵数据复制到cooc文件夹中的案例数据G11表格中即可出图

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
高频共现矩阵是指将一篇文本中出现频率较高的语进行统计,并计算这些语之间出现的共现次数,得到一个共现矩阵。这个共现矩阵可以作为文本的特征表示,用于文本分类、聚类等应用。 以下是一个使用Python生成高频共现矩阵的代码示例: 1. 首先导入必要的库: ``` import numpy as np import pandas as pd from nltk.tokenize import word_tokenize from nltk.corpus import stopwords ``` 2. 定义生成共现矩阵的函数: ``` def cooc_matrix(text, num_words=1000, window_size=5): # 分 tokens = word_tokenize(text.lower()) # 去掉停用 stop_words = set(stopwords.words('english')) tokens = [token for token in tokens if token not in stop_words] # 统计语频率 word_freq = pd.Series(tokens).value_counts()[:num_words] # 取出频率前num_words的语 words = word_freq.index.tolist() # 初始化共现矩阵 cooc = np.zeros((num_words, num_words)) # 遍历每个语 for i, word in enumerate(words): # 遍历当前语周围的语 for j in range(i - window_size, i + window_size): # 如果语在共现窗口内并且不是当前语本身 if j >= 0 and j < len(words) and words[j] != word: # 更新共现矩阵 cooc[i, j] = cooc[j, i] = tokens.count(word + ' ' + words[j]) return cooc, words ``` 3. 调用函数生成共现矩阵并进行演示: ``` # 读入文本 text = open('sample.txt').read() # 生成共现矩阵 cooc, words = cooc_matrix(text) # 打印共现矩阵和语列表 print(cooc) print(words) ``` 以上代码可以实现文本的高频共现矩阵的生成,可以根据不同的需求调整参数来适配不同的文本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值