稀疏矩阵和PageRank算法

节点数据比较稀疏,比如200个节点,完全连接的情况下有40000行,其中每行代表一个连接,但一般只有3000多行的连接,其余均是零。在这种情况下,使用稀疏矩阵来表示点与点之间的关系更为适合——每个数字4个字节,256个数字1k,40000个数字0.16Mb,但wiki节点数在1千万以上,即完全矩阵显示的话存储需要360多个TB,但边只有192万,即低于8MB,由此可见使用稀疏矩阵的必要性。

导入安装包

import numpy as np
from scipy.sparse import csr_matrix

导入数据

当读入的数据量较大时,一般使用上下文管理器with语句,进行单行读取操作。测试数据集可以是任意有向网络数据集,只不过需要将后面的890换为你数据集节点数加1——Python是以0开始计位。另外,需要提前将数据集进行清洗,分析的数据集从第一行开始即为边数据,而不是统计或者描述性信息。

file_name = ""
network_file = f'./{file_name}.txt'
​
row_l = list()
col_l = list()
with open(network_file, "r", encoding="utf-8") as file1:
    while 1:
        networki = file1.readline()
        _temp_value = [int(i) for i in networki.strip().split()]
        if len(_temp_value) >= 2:
        
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值