利用pandas实现合作次数统计

最新推荐文章于 2024-08-13 18:29:56 发布

小裘HUST

最新推荐文章于 2024-08-13 18:29:56 发布

阅读量1.1k

点赞数

分类专栏：数据分析文章标签： python pandas

本文链接：https://blog.csdn.net/qq_35787848/article/details/121863561

版权

数据分析专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近有一个需求，就是我有一列数据，这列数据中的每一行表示完成某一项目的所有单位，我想统计这一列数据中，不同单位两两之间的合作次数。数据格式如下：

a;
a;b;c
a;c;
b;d;e
b;f;
g;h;i;j
a;g;h
a;k
d;l;m
a;c;g

上面的每个字母都表示单位名称，不同单位之间用“;”隔开。实现功能的代码如下：

# gen_matrix.py
import pandas as pd

# 将原始数据存在list.txt文件中，并且放在和这一脚本文件相同的目录下
fp_list = open('list.txt',encoding='utf-8')
# 初始化一个字典，用于存放所有矩阵数据，矩阵数据用“二维”字典存放
matrix = {}
# cnt计数用于记录当前处理的行数
cnt = 1
# 用while循环遍历txt文件中的每一行
while True:
    namestr = fp_list.readline()
    if not namestr:
        break
    # 去掉每一行的换行符
    namestr = namestr.split('\n')[0]
    # 根据分隔符“;”将每一行的字段进行拆分，并放到names这个list中
    name_wo_sem = namestr.split(';')
    names = []
    for name in name_wo_sem:
    	# 只有非空的name才是有意义的，因为有时候如果这一行的末尾也有分隔符，就会有一个空的name
        if not name:
            pass
        else:
            names.append(name)

    # 更新矩阵的行索引，逐行读取之后，如果matrix中没有这个键值就加一个新的
    for name in names:
        if name in matrix:
            pass
        else:
            matrix[name] = {}

	# 更新矩阵的列索引，并给矩阵赋初值0
    namelist = list(matrix.keys())
    for name in namelist:
        for subname in namelist:
            if subname in matrix[name]:
                pass
            else:
                matrix[name][subname] = 0

    # 更新矩阵内容，把这一行中存在的合作关系在矩阵中的对应位置加一
    for i in range(len(names)-1):
        for j in range(i+1, len(names), 1):
            matrix[names[i]][names[j]] = matrix[names[i]][names[j]] + 1
	
	# 打印输出当前行数
    print('line ' + str(cnt) + ' finished')
    cnt = cnt + 1

# 实际上这种合作关系是没有方向的，所以只需要一个上三角矩阵
# 下面就把矩阵中的相同含义的合作关系加在一起
# 比如a和b有合作，b和a也有合作，它们两个值就可以加起来给其中一个，然后把另一个赋0
namelist = list(matrix.keys())
for i in range(len(namelist)-1):
    for j in range(i+1, len(namelist), 1):
        matrix[namelist[i]][namelist[j]] = matrix[namelist[i]][namelist[j]] + matrix[namelist[j]][namelist[i]]
        matrix[namelist[j]][namelist[i]] = 0

# 把嵌套的字典转换成字典list的形式，便于后续转换成DataFrame格式
mlist = []
for i in range(len(namelist)):
    mlist.append(matrix[namelist[i]])

# 转换为DataFrame格式，然后写入到excel中
df = pd.DataFrame(mlist, index=namelist)
print(df)
df.to_excel('Matrix.xlsx')

最终结果如下图所示。实际测试时发现，所生成的矩阵大部分情况下是一个稀疏矩阵，但是到后面随着数据量的越来越大，矩阵中遍历所需要的时间也越来越长。算法的效率还有待提高，但是实现基本功能应该没有问题。
在这里插入图片描述

小裘HUST

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
利用pandas实现合作次数统计

最近有一个需求，就是我有一列数据，这列数据中的每一行表示完成某一项目的所有单位，我想统计这一列数据中，不同单位两两之间的合作次数。数据格式如下：a;a;b;ca;c;b;d;eb;f;g;h;i;ja;g;ha;kd;l;ma;c;g 上面的每个字母都表示单位名称，不同单位之间用“;”隔开。实现功能的代码如下：# gen_matrix.pyimport pandas as pd# 将原始数据存在list.txt文件中，并且放在和这一脚本文件相同的目录下fp_list
复制链接

扫一扫