利用pandas实现合作次数统计

  最近有一个需求,就是我有一列数据,这列数据中的每一行表示完成某一项目的所有单位,我想统计这一列数据中,不同单位两两之间的合作次数。数据格式如下:

a;
a;b;c
a;c;
b;d;e
b;f;
g;h;i;j
a;g;h
a;k
d;l;m
a;c;g

  上面的每个字母都表示单位名称,不同单位之间用“;”隔开。实现功能的代码如下:

# gen_matrix.py
import pandas as pd

# 将原始数据存在list.txt文件中,并且放在和这一脚本文件相同的目录下
fp_list = open('list.txt',encoding='utf-8')
# 初始化一个字典,用于存放所有矩阵数据,矩阵数据用“二维”字典存放
matrix = {}
# cnt计数用于记录当前处理的行数
cnt = 1
# 用while循环遍历txt文件中的每一行
while True:
    namestr = fp_list.readline()
    if not namestr:
        break
    # 去掉每一行的换行符
    namestr = namestr.split('\n')[0]
    # 根据分隔符“;”将每一行的字段进行拆分,并放到names这个list中
    name_wo_sem = namestr.split(';')
    names = []
    for name in name_wo_sem:
    	# 只有非空的name才是有意义的,因为有时候如果这一行的末尾也有分隔符,就会有一个空的name
        if not name:
            pass
        else:
            names.append(name)

    # 更新矩阵的行索引,逐行读取之后,如果matrix中没有这个键值就加一个新的
    for name in names:
        if name in matrix:
            pass
        else:
            matrix[name] = {}

	# 更新矩阵的列索引,并给矩阵赋初值0
    namelist = list(matrix.keys())
    for name in namelist:
        for subname in namelist:
            if subname in matrix[name]:
                pass
            else:
                matrix[name][subname] = 0

    # 更新矩阵内容,把这一行中存在的合作关系在矩阵中的对应位置加一
    for i in range(len(names)-1):
        for j in range(i+1, len(names), 1):
            matrix[names[i]][names[j]] = matrix[names[i]][names[j]] + 1
	
	# 打印输出当前行数
    print('line ' + str(cnt) + ' finished')
    cnt = cnt + 1

# 实际上这种合作关系是没有方向的,所以只需要一个上三角矩阵
# 下面就把矩阵中的相同含义的合作关系加在一起
# 比如a和b有合作,b和a也有合作,它们两个值就可以加起来给其中一个,然后把另一个赋0
namelist = list(matrix.keys())
for i in range(len(namelist)-1):
    for j in range(i+1, len(namelist), 1):
        matrix[namelist[i]][namelist[j]] = matrix[namelist[i]][namelist[j]] + matrix[namelist[j]][namelist[i]]
        matrix[namelist[j]][namelist[i]] = 0

# 把嵌套的字典转换成字典list的形式,便于后续转换成DataFrame格式
mlist = []
for i in range(len(namelist)):
    mlist.append(matrix[namelist[i]])

# 转换为DataFrame格式,然后写入到excel中
df = pd.DataFrame(mlist, index=namelist)
print(df)
df.to_excel('Matrix.xlsx')

  最终结果如下图所示。实际测试时发现,所生成的矩阵大部分情况下是一个稀疏矩阵,但是到后面随着数据量的越来越大,矩阵中遍历所需要的时间也越来越长。算法的效率还有待提高,但是实现基本功能应该没有问题。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小裘HUST

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值