1、什么是Spark
Apache Spark™是用于大规模数据处理的统一分析引擎。
Spark的通用性:
![](https://i-blog.csdnimg.cn/blog_migrate/5d9c32ebbf22109e2828883962deffd2.png)
2、Spark的四大特性
(1)Speed:高效性
- 运行速度快
Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。
(2)Ease of Use:易用性
- 易用性好
Spark不仅支持Scala编写应用程序,而且支持Java和Python等语言进行编写,特别是Scala是一种高效、可拓展的语言,能够用简洁的代码处理较为复杂的处理工作。
(3)Generality:通用性
- 通用性强
(4)Run Everywhere:随处运行
- 随处运行
Spark具有很强的适应性,能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原