Scipy_Sparse介绍

sparse中的稀疏矩阵类共有以下几种:coo_matrix()、bsr_matrix()、csr_matrix()、lil_matrix()、dia_matrix()、dok_matrix()、spmatrix()这几种

其中coo_matrix()是最容易理解的一种形式。

例如,

       

r=np.array([0,0,2,2,2,3,6,3,4])
c=np.array([0,0,2,2,2,4,5,6,3])
data=np.array([1,1,1,1,1,1,1,1,1])

sparse.coo_matrix((data, (r,c)), shape=(7,7)).todense()
输出的稀疏矩阵如下:

matrix([[2, 0, 0, 0, 0, 0, 0],
             [0, 0, 0, 0, 0, 0, 0],
             [0, 0, 3, 0, 0, 0, 0],
             [0, 0, 0, 0, 1, 0, 1],
             [0, 0, 0, 1, 0, 0, 0],
             [0, 0, 0, 0, 0, 0, 0],
             [0, 0, 0, 0, 0, 1, 0]])

数组r中的元素和它对应下标的c列表中的元素组成了非零数字在稀疏矩阵中的坐标,r和c的第一个元素都是0,说明矩阵坐标(0,0)位置有非零数字,这个数字是几呢?这就要看data数组了。由于data的数值都是1,(0,0)出现两次,那么(0,0)位置的数值就是1+1=2。这里我们用r,c,data三个数组配合coo_matrix构造了一个稀疏矩阵。稀疏矩阵在计算机中的coo形式存储就是这个的逆过程。

在做特征工程的过程中,对于那些取值是多个类别的变量,经常要用到One-Hot编码,其结果就是得到稀疏矩阵X。现在要在数据集X的基础上加上一些做过一个列变量变换的数据集features,features不是稀疏矩阵,要合并X和feature就需要进行如下操作:

if sparse.issparse(X):     #判断X是否稀疏
	features = sparse.lil_matrix(features)    将features数据集用lil_matrix()稀疏化
	X = sparse.hstack((X, features), 'csr')   横向合并X和稀疏后的features,并存储为csr格式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值