Apache spark 2.4.3官方文档翻译之 spark overview

Apache spark 2.4.3官方文档翻译之 spark overview

原文地址 :http://spark.apache.org/docs/latest/
水平有限,欢迎提出任何建议,一起学spark!

Apache spark是一个快速通用的集群计算系统。它为多种语言提供API,包括Java, Scala, Python和R,及优化了的图像处理引擎。它拥有一系列高级工具,如针对SQL语言和结构化数据处理的spark SQL,针对机器学习的MLlib,针对图像处理的GraphX,以及处理流计算的Spark Streaming

安全性

在spark中安全保护默认关闭,即在默认状态下易受到攻击。请在下载和使用前查看Spark Security

下载

从项目网站的downloads page页即可直接获取Spark。本文档适用于spark 2.4.3 。Spark要依赖Hadoop用在HDFS和YARN的客户端lib库,所以下载文件里含有主流版本的Hadoop。用户也可以下载不含hadoop的Spark,然后加入classpath指向任何自行安装的Hadoop版本。Scala和Java用户可以用Maven来管理Spark,Python用户未来将可以从PyPI库中安装Spark。

也可访问Building Spark安装。

Spark可以用在Windows和UNIX(如Linux,MacOS)系统中,需要把java装在系统路径下,或者JAVA_HOME环境变量指向安装包路径。

Spark适用于Java 8以上、 Python 2.7以上/3.4以上、R 3.1以上版本。对于Scala API, Spark 2.4.3使用Scala 2.12,注意要用可兼容的Scala版本(2.12.x).

Spark对Java 7、Python 2.6和Hadoop 2.6.5以下版本的支持止于2.2.0,对于Scala 2.10的支持止于2.3.0,Scala 2.11将在Spark 2.4.1被弃用(deprecated)并将在Spark 3.0.版本中移除(remove)。

示例

Spark有很多示例代码,Scala, Java, Python和R的示例在examples/src/main路径下。如要跑Java或Scala示例程序,在顶层目录中执行bin/run-example <class> [params](此项援引通用spark-submit脚本)。 例如,

./bin/run-example SparkPi 10

你也可以交互式地用Scala shell,更好地了解框架

./bin/spark-shell --master local[2]

--master指令可用来指定Spark集群地址local表示单线程,local[N]表示N线程,开始可先使用local测试。在shell里使用--help指令可查看所有相关参数。

Spark同时提供Python API。交互式地用Python跑Spark,用bin/pyspark:

./bin/pyspark --master local[2]

提交Pyspark任务的示例如下,

./bin/spark-submit examples/src/main/python/pi.py 10

实验性的R API自Spark 1.4开始(只在DataFrames APIs里有) 。用bin/sparkR交互式地用R跑Spark:

./bin/sparkR --master local[2]

提交sparkR任务的示例如下,

./bin/spark-submit examples/src/main/r/dataframe.R
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本资源为网页,不是PDF Apache Spark 2.0.2 中文文档 Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 下一步 Spark Streaming Spark Streaming 概述 一个简单的示例 基本概念 依赖 初始化 StreamingContext Discretized Streams(DStreams)(离散化流) Input DStreams 和 Receivers DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作 缓存 / 持久化 CheckPointing 累加器和广播变量 应用程序部署 监控应用程序 性能 降低批处理的时间 设置合理的批处理间隔 内存 容错语义 迁移指南(从 0.9.1 或者更低版本至 1.x 版本) 快速跳转 Kafka 集成指南 DataFrames,Datasets 和 SQL Spark SQL 概述 SQL Datasets 和 DataFrames Spark SQL 入门指南 起始点 : SparkSession 创建 DataFrame 无类型 Dataset 操作(aka DataFrame 操作) 以编程的方式运行 SQL 查询 创建 Dataset RDD 的互操作性 数据源 通用的 Load/Save 函数 Parquet文件 JSON Datasets Hive 表 JDBC 连接其它数据库 故障排除 性能调优 缓存数据到内存 其它配置选项 分布式 SQL引擎 运行 Thrift JDBC/ODBC 运行 Spark SQL CLI 迁移指南 从 Spark SQL 1.6 升级到 2.0 从 Spark SQL 1.5 升级到 1.6 从 Spark SQL 1.4 升级到 1.5 从 Spark SQL 1.3 升级到 1.4 从 Spark SQL 1.0~1.2 升级到 1.3 兼容 Apache Hive 参考 数据类型 NaN 语义 Structured Streaming MLlib(机器学习) 机器学习库(MLlib)指南 ML Pipelines(ML管道) Extracting, transforming and selecting features(特征的提取,转换和选择) Classification and regression(分类和回归) Clustering(聚类) Collaborative Filtering(协同过滤) ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整) Advanced topics(高级主题) MLlib:基于RDD的API Data Types - RDD-based API(数据类型) Basic Statistics - RDD-based API(基本统计) Classification and Regression - RDD-based API(分类和回归) Collaborative Filtering - RDD-based API(协同过滤) Clustering - RDD-based API(聚类 - 基于RDD的API) Dimensionality Reduction - RDD-based API(降维) Feature Extraction and Transformation - RDD-based API(特征的提取和转换) Frequent Pattern Mining - RDD-based API(频繁模式挖掘) Evaluation metrics - RDD-based API(评估指标) PMML model export - RDD-based API(PMML模型导出) Optimization - RDD-based API(最) GraphX(图形处理) Spark R 部署 集群模式概述 提交应用 Spark Standalone 模式 Spark on Mesos Spark on YARN Spark on YARN 上运行 准备 Spark on YARN 配置 调试应用 Spark 属性 重要提示 在一个安全的集群中运行 用 Apache Oozie 来运行应用程序 Kerberos 故障排查 Spark 配置 Spark 监控 指南 作业调度 Spark 安全 硬件配置 构建 Spark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值