scipy中的稀疏矩阵

最新推荐文章于 2023-06-05 23:26:17 发布

梅津太郎

最新推荐文章于 2023-06-05 23:26:17 发布

阅读量605

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/gaocui883/article/details/115675528

版权

python 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

本文主要围绕scipy中的稀疏矩阵展开，也会介绍几种scipy之外的稀疏矩阵的存储方式。

dok_matrix

继承自dict，key是(row,col)构成的二元组，value是非0元素。

优点：

非常高效地添加、删除、查找元素
转换成coo_matrix很快

缺点：

继承了dict的缺点，即内存开销大
不能有重复的(row,col)

适用场景：

加载数据文件时使用dok_matrix快速构建稀疏矩阵，然后转换成其他形式的稀疏矩阵

coo_matrix

如上图，构造coo_matrix需要3个等长的数组，values数组存放矩阵中的非0元素，row indices存放非0元素的行坐标，column indices存放非0元素的列坐标。

优点：

容易构造
可以快速地转换成其他形式的稀疏矩阵
支持相同的(row,col)坐标上存放多个值

缺点：

构建完成后不允许再插入或删除元素
不能直接进行科学计算和切片操作

适用场景：

加载数据文件时使用coo_matrix快速构建稀疏矩阵，然后调用to_csr()、to_csc()、to_dense()把它转换成CSR或稠密矩阵

csr_matrix

csr_matrix同样由3个数组组成，values存储非0元素，column indices存储非0元素的列坐标，row offsets依次存储每行的首元素在values中的坐标，如果某行全是0则对应的row offsets值为-1（我猜的）。

优点：

高效地按行切片
快速地计算矩阵与向量的内积
高效地进行矩阵的算术运行，CSR + CSR、CSR * CSR等

缺点：

按列切片很慢（考虑CSC）
一旦构建完成后，再往里面添加或删除元素成本很高

csc_matrix

跟csr_matrix刚好反过来。

bsr_matrix

跟CSR/CSC很相近，尤其适用于稀疏矩阵中包含稠密子矩阵的情况。在解决矢量值有限元离散（vector-valued finite element discretizations）这类问题中BSR比CSR/CSC更高效。

dia_matrix

对角线存储法，按对角线方式存，列代表对角线，行代表行。省略全零的对角线。(从左下往右上开始：第一个对角线是零忽略，第二个对角线是5，6，第三个对角线是零忽略，第四个对角线是1，2，3，4，第五个对角线是7，8，9，第六第七个对角线忽略)。[3]

这里行对应行，所以5和6是分别在第三行第四行的，前面补上无效元素*。如果对角线中间有0，存的时候也需要补0。

适用场景：

如果原始矩阵就是一个对角性很好的矩阵那压缩率会非常高，比如下图，但是如果是随机的那效率会非常糟糕。

lil_matrix

内部结构是个二维数组:[[(col,value)]]，第一行对应原矩阵的一行（可以快速地定位到行），行内按列编号排序好（通过折半查找可以快速地定位到列），同样只存储非0元素。

优点：

快速按行切片
高效地添加、删除、查找元素

缺点：

按列切片很慢（考虑CSC）
算术运算LIL+LIL很慢（考虑CSR或CSC）
矩阵和向量内和解很慢（考虑CSR或CSC）

适用场景：

加载数据文件时使用lil_matrix快速构建稀疏矩阵，然后调用to_csr()、to_csc()把它转换成CSR/CSC进行后续的矩阵运算
非0元素非常多时，考虑使用coo_matrix（我个人是这样理解的，lil_matrix用一个二维数组搞定，二维数组占用的是连续的内存空间，如果非0元素非常多就要申请一块非常大的连续的内存空间，这样性能很差。而coo_matrix毕竟是使用的3个一维数组，对连续内存空间的要求没那么高）

ELLPACK (ELL)

用两个和原始矩阵相同行数的矩阵来存：第一个矩阵存的是列号，第二个矩阵存的是数值，行号就不存了，用自身所在的行来表示；这两个矩阵每一行都是从头开始放，如果没有元素了就用个标志比如*结束。上图中间矩阵有误，第三行应该是 0 2 3。

注：这样如果某一行很多元素，那么后面两个矩阵就会很胖，其他行结尾*很多，浪费。可以存成数组，比如上面两个矩阵就是：

0 1 * 1 2 * 0 2 3 * 1 3 *

1 7 * 2 8 * 5 3 9 * 6 4 *

但是这样要取一行就比较不方便了。

Hybrid (HYB) ELL + COO

为了解决ELL中提到的，如果某一行特别多，造成其他行的浪费，那么把这些多出来的元素（比如第三行的9，其他每一行最大都是2个元素）用COO单独存储。

skyline matrix storage

没看明白，自行wiki。

适用场景：

非常适合于稀疏矩阵的Cholesky分解或LU分解，这两种分解都是用来解线性方程组的。

行列双索引

这是自己实现的一种存储方式，分别按行和按列建立dict（dict中的key是行号或列号），这样按下标查找元素很快，但牺牲了空间。为了挽回空间上的牺牲，我们采用二进制来存储dict中的value。按下标查找元素时，根据行号定位到相应的value，value反序列化后转成dict，该dict的key是列号。

class DictMatrix():
    '''用dict来实现稀疏矩阵
    '''
 
    def __init__(self, dft=0.0):
        self._data = {}
        self._dft = dft  # “0元素”的值
        self._nums = 0  # 稀疏矩阵中非0元素的个数
 
    def __setitem__(self, index, value):
        try:
            i, j = index
        except:
            raise IndexError('invalid index')
 
        # 为了节省内存，我们把j, value打包成字二进制字符串
        ik = ('i%d' % i)
        ib = struct.pack('if', j, value)  # 格式化：i代替integer，f代表float。pack方法返回字符串
        jk = ('j%d' % j)
        jb = struct.pack('if', i, value)
 
        try:
            self._data[ik] += ib  # 拼接字符串
        except:
            self._data[ik] = ib
        try:
            self._data[jk] += jb
        except:
            self._data[jk] = jb
        self._nums += 1
 
    def __getitem__(self, index):
        try:
            i, j = index
        except:
            raise IndexError('invalid index')
 
        if (isinstance(i, int) and isinstance(j, int)):
            ik = ('i%d' % i)
            if self._data.has_key(ik):
                ret = dict(np.fromstring(self._data[ik], dtype='i4,f4'))
                return ret.get(j, self._dft)
        else:
            raise IndexError('invalid index')
 
        return self._dft
 
    def getRow(self, index):
        '''获取某一行的数据，返回dict
        '''
        rect = dict()
        if isinstance(index, int):
            ik = ('i%d' % index)
            if self._data.has_key(ik):
                rect = dict(np.fromstring(self._data[ik], dtype='i4,f4'))
        return rect
 
    def getCol(self, index):
        '''获取某一列的数据，返回dict
        '''
        rect = dict()
        if isinstance(index, int):
            jk = ('j%d' % index)
            if self._data.has_key(jk):
                rect = dict(np.fromstring(self._data[jk], dtype='i4,f4'))
        return rect
 
    def __len__(self):
        return self._nums
 
    def __iter__(self):
        pass
 
    def read(self, cache):
        '''cache是一个list，其中的每个元素都是个三元组(row,col,value)。
           从磁盘中加载稀疏矩阵时，可以先把部分数据加载到cache中，再从cache放到DictMatrix中。
        '''
        tmpDict = {}
        for row, col, value in cache:
            if value != self._dft:  # 确保添加的是“非0”元素
                ik = ('i%d' % row)
                ib = struct.pack('if', col, value)
                jk = ('j%d' % col)
                jb = struct.pack('if', row, value)
 
                try:
                    tmpDict[ik].write(ib)
                except:
                    # 考虑到字符串拼接性能不太好，我们直接用StringIO的write()来做拼接
                    tmpDict[ik] = StringIO()
                    tmpDict[ik].write(ib)
 
                try:
                    tmpDict[jk].write(jb)
                except:
                    tmpDict[jk] = StringIO()
                    tmpDict[jk].write(jb)
 
                self._nums += 1
 
        for k, v in tmpDict.items():
            v.seek(0)
            s = v.read()
            try:
                self._data[k] += s
            except:
                self._data[k] = s
 
if __name__ == '__main__':
 
    dtv = -1.0  # 默认值
    matrix = DictMatrix(dtv)
    matrix[1, 9] = 58.0
    matrix[1, 16] = 20.0
    matrix[2, 16] = 9
    assert matrix[1, 10] == dtv  # 元素不存在，取默认值
    for k, v in matrix.getRow(1).items():
        print k, v
    for k, v in matrix.getCol(16).items():
        print k, v
    assert matrix[1, 9] == 58.0
    assert matrix[1, 16] == 20.0
    assert matrix[2, 16] == 9
    assert matrix[2, 9] == dtv
    print len(matrix)
    matrix.read([(3, 3, 15), (9, 3, 100.0)])  # 批量添加数据
    assert matrix[1, 9] == 58.0
    assert matrix[3, 3] == 15
    assert matrix[9, 3] == 100.0
    print len(matrix)

上面的代码中做二进制序列化时用到了struck.pack，来个小例子看下序列化能省多少内存。

# coding=utf-8
__author__ = "orisun"
 
import struct
from cStringIO import StringIO
import numpy as np
from collections import defaultdict
 
loop1 = 10000
loop2 = 30
idx1 = 10
idx2 = 10
 
 
@profile
def foo1():
    position_link = defaultdict(list)  # list中每个元素是(int,float)类型的tuple
    for i in xrange(loop1):
        for j in xrange(loop2):
            position_link[i].append((100000, 0.123435465))
    print '1', position_link[idx1][idx2]
 
 
@profile
def foo2():
    position_link = {}
    for i in xrange(loop1):
        tmp = StringIO()
        for j in xrange(loop2):
            # 使用StringIO的write()方法做二进制拼接，效率高一些
            tmp.write(struct.pack('if', 100000, 0.123435465))
        tmp.seek(0)
        position_link[i] = tmp.read()
    li = list(np.fromstring(position_link[idx1], dtype='i4,f4'))
    print '2', li[idx2]
 
if __name__ == '__main__':
    '''foo2比foo1节省16.7%的内存，但是慢了61.7%
       使用memory_profiler查看内存使用
       使用line_profiler查看耗时
    '''
    foo1()
    foo2()

优点：

高效地动态添加元素
高效地按下标查找元素
高效地按行切片和按列切片

缺点：

不支持删除元素
内存占用略大

选择稀疏矩阵存储格式的经验

DIA和ELL格式在进行稀疏矩阵-矢量乘积(sparse matrix-vector products)时效率最高，所以它们是应用迭代法(如共轭梯度法)解稀疏线性系统最快的格式
COO格式常用于从文件中进行稀疏矩阵的读写，如matrix market即采用COO格式，而CSR格式常用于读入数据后进行稀疏矩阵计算