Python 将关系对数据转换为图数据 / 邻接矩阵

文章介绍了在深度学习的推荐系统中,如何处理大型邻接矩阵以避免内存溢出。传统方法是通过networkx将关系对转换为图,再生成邻接矩阵,但这种方法不适合大型数据。为解决此问题,文章提出直接使用networkx的to_scipy_sparse_matrix()函数,从图数据生成稀疏矩阵,减少内存消耗,提高处理效率。
摘要由CSDN通过智能技术生成

1. 前言

在深度学习任务,例如推荐系统中,将关系转换为图表示,即邻接矩阵是常用的操作。

通常的做法是先将关系对数据转换为图数据,然后生成该图的邻接矩阵,再存储为稀疏矩阵。但这种方法不适用于大型矩阵的操作,通常会报内存溢出的错误。以推荐系统的Amazon的评级数据为例(Movielens等同理),这里提供一种方法将图数据直接存储为稀疏矩阵。

数据格式示意图,实际只要用到user_id和item_id两列,且不需要表头:
在这里插入图片描述

2. 传统方法

传统方法先读入数据,然后获取关系对,将关系对保存为图,再用networkx.to_numpy_matrix()提取图的邻接矩阵,最后用scipy.sparse.csr_matrix()保存为稀疏矩阵。代码如下:

# 导入包
import scipy.sparse as sp
import pandas as pd
import networkx as nx

# 读取关系对数据
df = pd.read_table('ratings.txt', sep=' ', header=None) # 读取数据集为 pandas
relation_df = pd.DataFrame(df, columns=[0, 1]) # 取出交互关系

# pandas 转 numpy
relation_list = []
for index, row in relation_df.iterrows(): 
    relation_list.append((row[0], row[1]))

g = nx.Graph(relation_list) # 交互关系转换为图
d_A = nx.to_numpy_matrix(g) # 生成图的邻接矩阵 numpy

s_A = sp.csr_matrix(d_A) # numpy 转换为 稀疏矩阵
sp.save_npz('adj.npz', s_A)  # 保存稀疏矩阵
# csr_matrix_variable = sp.load_npz('adj.npz') # 读取稀疏矩阵

3. 直接转换为稀疏矩阵

传统方法只能顺利处理小型矩阵,遇到大矩阵时,networkx.to_numpy_matrix()会报内存溢出的错误。解决办法是不用两步转换,而是用networkx.to_scipy_sparse_matrix()方法直接从图存储为邻接矩阵的稀疏矩阵格式。代码如下:

# 导入包
import scipy.sparse as sp
import pandas as pd
import networkx as nx

# 读取关系对数据
df = pd.read_table('ratings.txt', sep=' ', header=None) # 读取数据集为 pandas
relation_df = pd.DataFrame(df, columns=[0, 1]) # 取出交互关系

# pandas 转 numpy
relation_list = []
for index, row in relation_df.iterrows(): 
    relation_list.append((row[0], row[1]))

g = nx.Graph(relation_list) # 交互关系转换为图
s_A = nx.to_scipy_sparse_matrix(g, dtype=int, format='csr') # 生成图的邻接矩阵的稀疏矩阵
sp.save_npz('adj.npz', s_A)  # 保存稀疏矩阵
# csr_matrix_variable = sp.load_npz('adj.npz') # 读取稀疏矩阵

4. networkx.to_scipy_sparse_matrix()的用法

摘自 to_scipy_sparse_matrix — NetworkX 2.8.8 documentation

用法:

to_scipy_sparse_matrix(G, nodelist=None, dtype=None, weight='weight', format='csr')

将图形邻接矩阵作为SciPy 稀疏矩阵返回。

参数:

  • G:图
    NetworkX 图,用于构造稀疏矩阵。
  • nodelist:列表,可选
    行和列根据 nodelist 中的节点进行排序。如果nodelist为None,则排序由 G.nodes() 生成。
  • dtype:NumPy 数据类型,可选
    用于初始化数组的有效 NumPy格式的dtype。如果None,则使用 NumPy 默认值(np.float64)。
  • weight:字符串或无可选(default=‘weight’)
    保存用于边权重的数值的边属性。如果 None 则所有边权重为 1。
  • format:{‘bsr’, ‘csr’, ‘csc’, ‘coo’, ‘lil’, ‘dia’, ‘dok’} 中的字符串
    要返回的矩阵类型(默认 ‘csr’)。对于某些算法,稀疏矩阵的不同实现可以表现得更好。

返回:

  • A:SciPy 稀疏矩阵
    图的邻接矩阵的稀疏矩阵。
  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白水baishui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值