转载来自:https://blog.csdn.net/whiterbear/article/details/53120004
问题
实际处理和解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。这种情况下,如果还是直接使用传统的方式肯定行不通,比如当你想把数据load到内存中转成numpy数组,你会发现要么创建不了那么大的numpy矩阵,要么直接加载时报MemeryError。
在这种情况下我了解了几种选择办法,
- 对数据进行降维,
- 使用流式或类似流式处理,
- 上大机器,高内存的,或者用spark集群