最近大数据领域最火的消息莫过于Pivotal兑现了其年初对于开源其大数据核心产品GemFire,HAWQ,Greemplum DB的承诺 。这个消息也让Pivotal在国内技术社区风风光光的火了一把,程序猿们可以看到真正的企业级数据仓库是如何设计和实现的。
与此同时,开源社区中也存在很多类似的优秀大数据相关项目,涵盖了分布式数据存储与计算,数据处理,数据仓库,机器学习等与数据有关的方方面面,下面就让我们看看开源社区中的这些大数据项目典型代表。
首先,说起大数据开源项目,第一个必须要提的当然就是Apache Hadoop下的三个子项目Apache HDFS,Apache MapReduce,Apache YARN,这基本上可以认为是大数据处理的国际标准,是整个大数据生态系统的基石。
在分布式存储领域,可以按存储模型分为文件系统,KV存储,Columnar存储,Document存储,Graph存储。</