用一个简单的例子说明单细胞分析中的dgCMatrix数据的结构

我是胡锦州

于 2024-01-10 12:06:38 发布

阅读量1.2k

点赞数 13

文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42940869/article/details/135499391

版权

dgCMatrix是一种适合存储稀疏矩阵的数据格式，利用i、p、x三个数组表示矩阵。i存储非零值的行索引，p记录每个列之前非零值的数量，x则是非零值的顺序。文章解释了如何转换普通矩阵并讨论了R语言中p数组的特殊性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

dgCMatrix用来存储矩阵的一种数据格式，这种数据格式很适合存储稀疏矩阵（即矩阵中大部分值为0）。dgCMatrix使用三个数组（分别是i，p，x）来存储矩阵。怎么存的呢？

先举一个普通矩阵的例子：

3 0 0
0 4 0
8 0 5
0 6 0

如果要把它转换成dgCMatrix格式，搞清楚对应的i，p，x值就行了。

x是存储矩阵中所有的非零值按从上到下，从左往右的顺序的排列。对于上面这个例子：

x = 3, 8, 4, 6, 5

i则存储了这些非零值对应的行索引，并且顺序与x一一对应。值得注意的是，行号是从0开始的，所以3在第0行，8在第2行，因此i数组应该是：

i = 0, 2, 1, 3, 2

p这个数组稍微复杂，它是存储了当前列前面所有非零值的总数。
第一列前面没有，所以p[1]是0。
第二列前面共有2个，分别是3和8，所以p[2]是2；
第三列前面共有4个，即3,8,4,6，所以p[3]是4；
此外，虽然没有第四列，但p在最后仍然会有一个p[4]，也就是虚拟的“第四列”前面的所有非零值总数，当然也就是整个矩阵中所有非零值的数量，即p[4]=5。综上，p的值为：

p = 0, 2, 4, 5

视野拓展

你可能会发现，按照这种方式，p的第一个值永远都是0。并且，“当前列前面所有的非零值”这种表述实在是违反直觉。这其实是因为dgCMatrix这种存储方式，最早并不是在R语言中使用的。而在其他很多编程语言中，数组下标都是从0开始，这样的话，p的第一个值为0，就可以让数组下标刚好与矩阵列的下标对应，从而便于理解p了：例如p[4]就代表前4列所有非零值的数量。然而R语言的数组下标是从1开始的，这样的话，p的第一个值被0占据后，所有的数组下标就与实际的矩阵列号错开了。这样的话，R在最开始创建dgCMatrix的时候应该考虑将p的第一位0去掉，从而让R中的p下标数与矩阵列号对应。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。