1. spark是什么?
Apache Spark™ is a unified analytics engine for large-scale data processing.
spark是针对于大规模数据处理的统一分析引擎
- spark 是在Hadoop基础上的改进,基于map reduce算法实现的分布式计算框架,所以spark 拥有Hadoop MapReduce所具有的优点。
- spark 不同于 MapReduce 的是 spark 的 Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于需要迭代的map reduce的算法,如数据挖掘与机器学习等。
- spark是基于内存计算框架,计算速度非常快,但是它仅仅只是涉及到计算,并没有涉及到数据的存储,后期需要使用spark对接外部的数据源,比如hdfs。
2. spark四大特性
- 特性一: 速度快
spark 比 marpreduce 快的两个主要原因
- sp