我目前正在尝试做一个非常大的矩阵,我不确定如何以内存有效的方式做到这一点。内存高效的方法来使大零矩阵python
我正在尝试使用numpy,它适用于我的小案例(2750086X300) 但是,我得到了一个较大的2750086X1000,这对我来说太大了,无法运行。
我虽然关于如何使用ints,但我会添加float值,因此不确定cld如何影响它。
我试图找到一些关于做一个稀疏的零填充数组,但cldnt在这里或其他地方找到任何伟大的主题/问题/建议。
任何人有任何好建议?我目前正在使用python,所以我寻找pythonic解决方案,但我愿意尝试其他语言。
THX
编辑:
THX的建议,我已经试过scipy.sparse.csr_matrix它成功地创建一个矩阵,但深深增加了时间去通过它。
继承人样的我在做什么:
matrix = scipy.sparse.csr_matrix((df.shape[0], 300))
## matrix = np.zeros((df.shape[0],
for i, q in enumerate(df['column'].values):
matrix[i, :] = function(q)
其中功能是相当多的该行向量运算功能。
现在,如果我在np.zeros上执行循环,那么它非常容易,大约需要10分钟。
现在,如果我尝试做与scipy稀疏矩阵相同,它需要大约50个小时。这是不合理的。
任何建议?
编辑2:
scipy.sparse.lil_matrix的伎俩
约需20 minut的环路,并使用比np.zeros
THX的存储方式少。
编辑3:
还是内存昂贵。决定不在矩阵中存储数据。一次处理1行。从中获得相关的价值/指标,将价值存储在原始df中,再次运行。
2017-04-06
epattaro
+0
'np.zeros((2750086,1000))'很可能对您的记忆来说太大了,无论是填满了零还是实数。有一个稀疏矩阵,说只有0.1%的非零可能适合。但是你对这个数组做什么?按元素填充它将永远占用。而任何数组几乎填满内存的数学只会产生一些内存错误,因为它会创建临时缓冲区。 –
+0
想一想,使用32位数字至少需要'2750086 * 1000 * 1e-9 * 4 = 11.000344千兆字节。不是完全疯狂,但相当大。您可以获得更多RAM或尝试使用稀疏表示。 –
+0
在'[scipy]稀疏'上搜索以查找有关'[scipy]'中稀疏矩阵包的问题。 'lil','coo'和'csr'也可以作为唯一的字符串。如果你正在学习或测试处理软件包,比如'scikit-learn',可能会有用。 –