Spark内容分享(三)：Spark - 介绍及使用 Scala、Java、Python 三种语言演示

最新推荐文章于 2025-07-28 19:09:37 发布

原创

最新推荐文章于 2025-07-28 19:09:37 发布 · 1.4k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala #java

一、Spark

Apache Spark 是一个快速的，多用途的集群计算系统，相对于 Hadoop MapReduce 将中间结果保存在磁盘中， Spark 使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行运算。

Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件系统和完备的调度系统, 如果要使用 Spark，需要搭载其它的文件系统。

Hadoop 之父 Doug Cutting 指出：Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降，由 Apache Spark 取代)。

当然现在有了更为发展趋势，更好处理流式数据的 Flink ，但 Spark 在大数据处理领域仍有一席之地。

1. Spark的优点：

• 速度快：Spark 在内存时的运行速度是 Hadoop MapReduce 的100倍，基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍，并且Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存在内存中可以进行迭代处理。
• 易上手：Spark 支持 Java、Scala、Python、R,、SQL 等多种语言的API，并且支持超过80个高级运算符使得用户非常轻易的构建并行计算程序，同时Spark 也可以使用基于 Scala, Python, R, SQL的 Shell 交互式查询。
• 通用性强：Spark 提供一个完整的技术栈,，包括 SQL执行， Dataset命令式API，机器学习库MLlib, 图计算框架GraphX, 流计算SparkStreaming等。
• 兼容性好：Spark 可以运行在 Hadoop Yarn、Apache Mesos、 Kubernets、 Spark Standalone等集群中，可以访问 HBase、 HDFS、Hive、 Cassandra 在内的多种数据库。

2. Spark中的组件

• Spark-Core：整个 Spark 的基础,，提供了分布式任务调度和基本的 I/O 功能，并且Spark 最核心的功能是 RDDs，RDDs 就存在于这个包内。同时 RDDs 简化了编程复杂性，操作 RDDs 类似 Jdk8 的 Streaming 操作本地数据集合。
• Spark SQL：在 spark-core 基础之上带出了 DataSet 和 DataFrame 的数据抽象化的概念，提供了在 Dataset&