节点数据比较稀疏,比如200个节点,完全连接的情况下有40000行,其中每行代表一个连接,但一般只有3000多行的连接,其余均是零。在这种情况下,使用稀疏矩阵来表示点与点之间的关系更为适合——每个数字4个字节,256个数字1k,40000个数字0.16Mb,但wiki节点数在1千万以上,即完全矩阵显示的话存储需要360多个TB,但边只有192万,即低于8MB,由此可见使用稀疏矩阵的必要性。
导入安装包
import numpy as np
from scipy.sparse import csr_matrix
导入数据
当读入的数据量较大时,一般使用上下文管理器with语句,进行单行读取操作。测试数据集可以是任意有向网络数据集,只不过需要将后面的890换为你数据集节点数加1——Python是以0开始计位。另外,需要提前将数据集进行清洗,分析的数据集从第一行开始即为边数据,而不是统计或者描述性信息。
file_name = ""
network_file = f'./{file_name}.txt'
row_l = list()
col_l = list()
with open(network_file, "r", encoding="utf-8") as file1:
while 1:
networki = file1.readline()
_temp_value = [int(i) for i in networki.strip().split()]
if len(_temp_value) >= 2: