1.Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松的在Hadoop上开发和运行处理海量数据的应用程序。
2.Spark
Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark是由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发的,其核心部分的代码只有63个Scala文件,非常亲轻量级。
3.Storm
Storm是一种开源软件,一个分布式、容错的实时计算系统。Storm可以非常可靠地处理庞大的数据流,用于处Hadoop的批量数据。
4.Apache Drill
通过开发Apache Drill开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。