由学科引用矩阵计算相似度

本文介绍如何利用Excel数据计算学科引用矩阵的相似度,包括cosine相似度和claArr方法。通过读取Excel,计算并重新组织结果到新的Excel表中。针对228x228的数据集,进行了行和列的求和操作,改进了代码以适应实际行数和列数。还探讨了使用sklearn库处理稀疏矩阵的方法。
摘要由CSDN通过智能技术生成

本文是用Excel表格内的学科引用矩阵计算得到学科相似度,分为以下几个步骤:

第一步,读取Excel数据,返回行标签和列标签和内部的数值(n维数组)。
第二步,对数据按行进行计算相似度。

其中这里写了2个计算相似度的方法,一个是cosine相似度,
另一个是由张琳的这篇文章《Diversity of References as an Indicator of the
Interdisciplinarity of Journals: Taking Similarity
Between Subject Fields Into Account》得到,由claArr方法计算,具体如下:
在这里插入图片描述
具体的标准化和归一化,看情况调用。

第三步,将计算得到的结果重新装进excel 表
import math
from openpyxl import load_workbook
import numpy as np
import pandas as pd

def genEmptyArr(i,j):
	a = []
	for ii in range(i):
		b = []
		for jj in range (j):
			b.append(0)
		a.append(b)
	return a

#归一化
def normalization(data):
	_range = np.max(data) - np.min(data)
	return (data - np.min(data)) / _r
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值