003-10-01【Spark官网思维笔记】山那头小学同桌大红和我说：spark-2.3.0 要学习些什么之官网概述-CSDN博客

本文链接：https://blog.csdn.net/eases_stone/article/details/135406870

GGborn: spark-2.3.0 要学习些什么之官网概述

1概述

1概述

1.1 Spark概述

Apache Spark 是一个快速、通用的集群计算系统。它提供 Java、Scala、Python 和 R 中的高级 API，以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的Spark SQL 、用于机器学习的MLlib 、用于图形处理的GraphX和Spark Streaming。

1.2下载

下载页: https://archive.apache.org/dist/spark/spark-2.3.0/
从项目网站的下载页面获取 Spark 。本文档适用于 Spark 2.3.0版本。Spark 使用 Hadoop 的 HDFS 和 YARN 客户端库。下载已针对少数流行的 Hadoop 版本进行了预打包。用户还可以下载“Hadoop free”二进制文件，并通过声明Spark 的类路径来使用任何 Hadoop 版本运行 Spark 。Scala 和 Java 用户可以使用 Spark 的 Maven 坐标将 Spark 包含在他们的项目中，将来 Python 用户还可以从 PyPI 安装 Spark。
如果您想从源代码构建 Spark，请访问构建 Spark。
Spark 可以在Windows 和类UNIX 系统（例如Linux、Mac OS）上运行。在一台机器上本地运行很容易 - 您所需要的只是java在您的系统上安装PATH，或者JAVA_HOME指向 Java 安装的环境变量。
Spark 在 Java 8+、Python 2.7+/3.4+ 和 R 3.1+ 上运行。对于 Scala API，Spark 2.3.0 使用 Scala 2.11。您将需要使用兼容的 Scala 版本 (2.11.x)。
请注意，从 Spark 2.2.0 开始，删除了对 Java 7、Python 2.6 和 2.6.5 之前的旧 Hadoop 版本的支持。从 2.3.0 开始，删除了对 Scala 2.10 的支持。

1.3 运行示例和Shell

Spark 附带了几个示例程序。Scala、Java、Python 和 R 示例位于该 examples/src/main目录中。要运行 Java 或 Scala 示例程序之一，请 bin/run-example [params]在Spark 根目录中使用。（在幕后，这会调用更通用的 spark-submit脚本来启动应用程序）。例如，
./bin/run-example SparkPi 10
您还可以通过 Scala shell 的修改版本以交互方式运行 Spark。这是学习框架的好方法。
./bin/spark-shell --master local[2]
该–master选项指定分布式集群的主 URL，或者local使用一个线程本地运行，或者local[N]使用 N 个线程本地运行。您应该从用于 local测试开始。有关选项的完整列表，请使用该–help选项运行 Spark shell。
Spark 还提供了 Python API。要在 Python 解释器中交互运行 Spark，请使用 bin/pyspark：
./bin/pyspark --master local[2]
还提供了 Python 版本的示例应用程序。例如，
./bin/spark-submit examples/src/main/python/pi.py 10
Spark 还从 1.4 开始提供实验性R API（仅包含 DataFrames API）。要在 R 解释器中交互运行 Spark，请使用bin/sparkR：
./bin/sparkR --master local[2]
R 中还提供了示例应用程序。例如，
./bin/spark-submit examples/src/main/r/dataframe.R

1.4 在集群上运行

Spark集群模式概述解释了在集群上运行的关键概念。Spark 可以单独运行，也可以在多个现有集群管理器上运行。目前它提供了多种部署选项：
Standalone Deploy Mode: 在私有集群上部署 Spark 的最简单方法
Apache Mesos
Hadoop YARN
Kubernetes

1.5 主要的相关文档

1.5.1 编程指南

1.5.1.1 快速入门：Spark API 的快速介绍；从这里开始！

1.5.1.2 RDD 编程指南：Spark 基础知识概述 - RDD（核心但旧的 API）、累加器和广播变量

1.5.1.3 Spark SQL、Datasets 和 DataFrames：使用关系查询处理结构化数据（比 RDD 更新的 API）

1.5.1.4 Structured Streaming：使用关系查询处理结构化数据流（使用数据集和数据帧，比 DStreams 更新的 API）

1.5.1.5 Spark Streaming：使用DStreams（旧API）处理数据流

1.5.1.6 MLlib：应用机器学习算法

1.5.1.7 GraphX：处理图表

1.5.2 API 文档：

Spark Scala API (Scaladoc)
Spark Java API（Javadoc）
Spark Python API (Sphinx)
Spark R API (Roxygen2)
Spark SQL，内置函数 (MkDocs)

1.5.3 部署指南

集群概述：在集群上运行时的概念和组件概述
提交应用程序：打包和部署应用程序
部署模式：
Amazon EC2：可让您在大约 5 分钟内在 EC2 上启动集群的脚本
Standalone Deploy Mode：无需第三方集群管理器即可快速启动独立集群
Mesos ：使用Apache Mesos部署私有集群
YARN：在 Hadoop NextGen (YARN) 之上部署 Spark
Kubernetes：在 Kubernetes 之上部署 Spark

1.5.4 其他文档

配置：通过其配置系统自定义 Spark
监控：跟踪应用程序的行为
调优指南：优化性能和内存使用的最佳实践
作业调度：在 Spark 应用程序之间和内部调度资源
安全性：Spark安全支持
硬件配置：集群硬件建议
与其他存储系统集成：
云基础设施
OpenStack Swift
Building Spark：使用Maven系统构建Spark
为 Spark 做出贡献
第三方项目：相关第三方 Spark 项目

1.5.5 其余资源

Spark 社区资源，包括本地聚会
StackOverflow 标签apache-spark
邮件列表：在此处询问有关 Spark 的问题
AMP 训练营：加州大学伯克利分校的一系列训练营，其中包括有关 Spark、Spark Streaming、Mesos 等的讲座和练习。视频、幻灯片和练习均可在线免费获取。
代码示例examples： Spark 子文件夹中还提供了更多代码示例（ Scala、 Java、 Python、 R）