Spark 入门（一）

最新推荐文章于 2024-07-25 10:38:08 发布

夏夏夏果

最新推荐文章于 2024-07-25 10:38:08 发布

阅读量125

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_41797886/article/details/103963660

版权

3 篇文章 0 订阅

订阅专栏

Spark

Spark-logo
Apache Spark 是一个快如闪电的统一分析引擎（并没有提供数据存储的方案)Lightning-fast unified analytics engine

快如闪电（相比于传统的大数据处理方案MapReduce）：

Spark将一个复杂的计算任务Job拆分为多个细粒度的Stage，每一个Stage都可以分布式并行计算；对于MapReduce初代的计算引擎，它将任务拆分了粗粒度的MapTask和ReduceTask，对于特别复杂的计算任务，我们需要将多个MapReduce Job串联起来；
Spark内存式的计算引擎；对于MapReduce基于磁盘的计算引擎；
Spark中间计算结果支持缓存的，极大提高计算效率，这种缓存可以应用于结果复用和故障恢复；对于MapReduce中间结果需要溢写在磁盘；

统一（提供了大数据处理的所有主流方案）：

批处理(Batch Processing)： Spark RDD，代替了Hadoop MapReduce
流处理(Streams Processing)：Spark Streaming和Spark Structured Streaming，代替了Kafka Streams、Storm
交互式查询（SQL）：Spark SQL，代替了Hive
机器学习（Machine Learning）： Spark MLLib，代替了Mahout
图形计算（Graph）：Spark Graphx，基于图形存储的NoSQL数据库的计算支持（Neo4J）
Spark生态库：解决其它大数据处理问题

关注