一:起因
(0)大数据的预处理那一篇博客,仅仅讲解了如何处理数据,以及清洗数据的原则;并没有讲解大数据处理过程中,数据在内存中的存储问题,这正是本文要关注的重点。
(1)所谓大数据,就是数据量非常的大,到了TB 甚至 PB数量级,处理大数据可以分为以下方法:
(2)运用现在非常火的Hadoop 和 spark 之外(其实是一个非常好的成熟的分布式框架 ---- 用的也是分治的思想);
(3)采取hashing 分治 (把大文件分隔为小文件) + hashmap映射 + 堆排/快排/归并排序/基于partition的top10方法;
(4)采用压缩存储的思想 —— Trie树(字典树)或者 BitMap(按位存储) (本文的重点就是如何在现有4G单机上实现大数据处理)
(5)之前已经讲解过了大数据的如何爬取、实验的方法以及大数据的预处理,请参考相关的文章(如下)