Spark是什么?
听说大数据,首先是Hadoop。具体说HDFS 和MapReduce。一个负责存储,一个负责计算。速度和适用性是永恒的优化目标。Spark在这两方面提升很大。
同时Spark还是一个生态系统,已经提供一组工具,叫做:The Spark stack。
Spark Core 核心模块
Spark SQL sql查询接口,兼容hive
Spark Streaming 处理流数据,比如web log等
MLlib 机器学习
GraphX 图像处理
Cluster Managers 集群管理