什么是spark?
首先翻译spark官方文档的介绍:
Apache Spark是一个快速的、广泛适用的集群计算系统,它提供高层次的Java、Scala、Python和R的API,以及支持常规执行图的优化引擎。它同样还支持许多高层次的工具,如Spark SQL,可以用来实现SQL和结构化数据处理;MLlib,用来实现机器学习算法;GraphX,用于图处理;Spark Streaming等。
该介绍的后面都是关于spark的功能描述,其本质主要是第一句,三个关键词:集群计算系统,快速,广泛适用。
集群计算系统:集群计算顾名思义就是多个计算机集成在一起实现计算任务。其优势我归结为三点:
- 并行高效:某种程度上在计算上并行已经被默认为更高效、更快速的一种实现方式。
- 可靠:多个计算机往往意味着多份数据存储,在spark中,一份数据会被备份为三份,尽量保证数据不会丢失,且一台服务器的崩溃不会影响到其他服务器。。
- 灵活可扩展:计算资源能很方便的按需扩展,同时其内部优化也会提高计算资源的利用效率。
什么是集群计算系统
spark的优势?
spark的基本构成,