003-10-01【Spark官网思维笔记】 山那头小学同桌大红和我说:spark-2.3.0 要学习些什么之官网概述

1概述

1.1 Spark概述

Apache Spark 是一个快速、通用的集群计算系统。它提供 Java、Scala、Python 和 R 中的高级 API,以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的Spark SQL 、用于机器学习的MLlib 、用于图形处理的GraphX和Spark Streaming。

1.2下载

下载页: https://archive.apache.org/dist/spark/spark-2.3.0/
从项目网站的下载页面获取 Spark 。本文档适用于 Spark 2.3.0版本。Spark 使用 Hadoop 的 HDFS 和 YARN 客户端库。下载已针对少数流行的 Hadoop 版本进行了预打包。用户还可以下载“Hadoop free”二进制文件,并 通过声明Spark 的类路径来使用任何 Hadoop 版本运行 Spark 。Scala 和 Java 用户可以使用 Spark 的 Maven 坐标将 Spark 包含在他们的项目中,将来 Python 用户还可以从 PyPI 安装 Spark。
如果您想从源代码构建 Spark,请访问构建 Spark。
Spark 可以在Windows 和类UNIX 系统(例如Linux、Mac OS)上运行。在一台机器上本地运行很容易 - 您所需要的只是java在您的系统上安装PATH,或者JAVA_HOME指向 Java 安装的环境变量。
Spark 在 Java 8+、Python 2.7+/3.4+ 和 R 3.1+ 上运行。对于 Scala API,Spark 2.3.0 使用 Scala 2.11。您将需要使用兼容的 Scala 版本 (2.11.x)。
请注意,从 Spark 2.2.0 开始,删除了对 Java 7、Python 2.6 和 2.6.5 之前的旧 Hadoop 版本的支持。从 2.3.0 开始,删除了对 Scala 2.10 的支持。

1.3 运行示例和Shell

Spark 附带了几个示例程序。Scala、Java、Python 和 R 示例位于该 examples/src/main目录中。要运行 Java 或 Scala 示例程序之一,请 bin/run-example [params]在Spark 根目录中使用。(在幕后,这会调用更通用的 spark-submit脚本来启动应用程序)。例如,
./bin/run-example SparkPi 10
您还可以通过 Scala shell 的修改版本以交互方式运行 Spark。这是学习框架的好方法。
./bin/spark-shell --master local[2]
该–master选项指定 分布式集群的主 URL,或者local使用一个线程本地运行,或者local[N]使用 N 个线程本地运行。您应该从用于 local测试开始。有关选项的完整列表,请使用该–help选项运行 Spark shell。
Spark 还提供了 Python API。要在 Python 解释器中交互运行 Spark,请使用 bin/pyspark:
./bin/pyspark --master local[2]
还提供了 Python 版本的示例应用程序。例如,
./bin/spark-submit examples/src/main/python/pi.py 10
Spark 还从 1.4 开始提供实验性R API(仅包含 DataFrames API)。要在 R 解释器中交互运行 Spark,请使用bin/sparkR:
./bin/sparkR --master local[2]
R 中还提供了示例应用程序。例如,
./bin/spark-submit examples/src/main/r/dataframe.R

1.4 在集群上运行

Spark集群模式概述解释了在集群上运行的关键概念。Spark 可以单独运行,也可以在多个现有集群管理器上运行。目前它提供了多种部署选项:
Standalone Deploy Mode: 在私有集群上部署 Spark 的最简单方法
Apache Mesos
Hadoop YARN
Kubernetes

1.5 主要的相关文档

1.5.1 编程指南

1.5.1.1 快速入门:Spark API 的快速介绍;从这里开始!
1.5.1.2 RDD 编程指南:Spark 基础知识概述 - RDD(核心但旧的 API)、累加器和广播变量
1.5.1.3 Spark SQL、Datasets 和 DataFrames:使用关系查询处理结构化数据(比 RDD 更新的 API)
1.5.1.4 Structured Streaming:使用关系查询处理结构化数据流(使用数据集和数据帧,比 DStreams 更新的 API)
1.5.1.5 Spark Streaming:使用DStreams(旧API)处理数据流
1.5.1.6 MLlib:应用机器学习算法
1.5.1.7 GraphX:处理图表

1.5.2 API 文档:

Spark Scala API (Scaladoc)
Spark Java API(Javadoc)
Spark Python API (Sphinx)
Spark R API (Roxygen2)
Spark SQL,内置函数 (MkDocs)

1.5.3 部署指南

集群概述:在集群上运行时的概念和组件概述
提交应用程序:打包和部署应用程序
部署模式:
Amazon EC2:可让您在大约 5 分钟内在 EC2 上启动集群的脚本
Standalone Deploy Mode:无需第三方集群管理器即可快速启动独立集群
Mesos :使用Apache Mesos部署私有集群
YARN:在 Hadoop NextGen (YARN) 之上部署 Spark
Kubernetes:在 Kubernetes 之上部署 Spark

1.5.4 其他文档

配置:通过其配置系统自定义 Spark
监控:跟踪应用程序的行为
调优指南:优化性能和内存使用的最佳实践
作业调度:在 Spark 应用程序之间和内部调度资源
安全性:Spark安全支持
硬件配置:集群硬件建议
与其他存储系统集成:
云基础设施
OpenStack Swift
Building Spark:使用Maven系统构建Spark
为 Spark 做出贡献
第三方项目:相关第三方 Spark 项目

1.5.5 其余资源

Spark 社区资源,包括本地聚会
StackOverflow 标签apache-spark
邮件列表:在此处询问有关 Spark 的问题
AMP 训练营:加州大学伯克利分校的一系列训练营,其中包括有关 Spark、Spark Streaming、Mesos 等的讲座和练习。视频、 幻灯片和练习均可在线免费获取。
代码示例examples: Spark 子文件夹中还提供了更多代码示例( Scala、 Java、 Python、 R)

1.6 思维导图spark概述思维导图

  • 22
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值