Spark是一个支持大数据计算的快速和广泛使用的框架
此文为翻译spark官方文档,原文地址:https://spark.apache.org/
Speed
在内存上spark比hadoop mapreduce快100倍,在磁盘存储的情况下快10倍以上。
Ease of use
支持有java、scala、python、R编写spark应用程序,并且友好的这次此类程序的交互式编写。spark提供了超过80个的高级算子。
Generality
spark中包含了SQL、DataFrame、Mlib等支持机器学习的模块,GraphX和Sparkstreaming等。用户可在同一程序中使用多个模块功能。
Runs Everywhere
spark支持在Hadoop、Mesos、Standalone上运行。支持不同的数据源,如hdfs、Cassandra、Hbase、S3、Hive等。