scipy.sparse模块解决稀疏矩阵的存储问题

最近在做腾讯算法广告大赛,样本数高达1100多W,这个时候用numpy矩阵存储特征向量会出现memory error,而且特征本身是稀疏的,也就是大部分元素都为0。查了一些资料后发现scipy库中的sparse模块能很好的解决这个问题,先附上scipy.sparse的文档网址:https://docs.scipy.org/doc/scipy/reference/sparse.html
这里写图片描述

稀疏矩阵:coo_matrix

coo_matrix是以COOrdinate格式保存矩阵的一种数据结构,官方文档如下:
这里写图片描述
它可以将array或者list结构转成稀疏矩阵存储:
这里写图片描述
这里写图片描述
这里写图片描述
coo_matrix中的toarray()可以将稀疏矩阵转换成np.array的格式。coo_matrix的优势不仅在于能够方便地存储大型稀疏矩阵,而且在于它能够直接传入lightgbm模型进行训练,lightgbm模型特地针对稀疏矩阵的情况进行了优化,所以即使是大型的稀疏特征向量,它也能够很快地进行训练。

coo_matrix元素访问

coo_matrix的存储方式比较特殊,无法直接访问其中的元素,需要转成csc_matrix或者csr_matrix格式才能访问:
这里写图片描述

稀疏矩阵的保存和加载

save_npz函数和load_npz函数分别可以实现coo_matrix的保存和加载功能,保存的格式是npz:
这里写图片描述

稀疏矩阵的拼接

横向拼接:hstack函数
纵向拼接:vstack函数
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值