![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark官方文档读书笔记 2.4.0
南风剑声
这个作者很懒,什么都没留下…
展开
-
Spark官方文档读书笔记概述
序言 本读书笔记基于Spark官方文档2.4.0版本,在阅读英文源文档时候借助谷歌翻译完成。同时在具有疑惑的地方参考网上已翻译的基于2.2.0版本的Spark文档。 概述 Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理...原创 2019-03-12 17:04:24 · 132 阅读 · 0 评论 -
部署指南——部署模式
Spark Standalone Mode Spark 提供了一个简单的 standalone 部署模式。您可以手动启动 master 和 worker 来启动 standalone 集群,或者使用我们提供的 launch scripts 脚本。可以为了测试而在单个机器上运行这些进程。 安装 Spark Standalone 集群 安装 Spark Standalone 集群,只需要将编译好的版本...原创 2019-03-13 16:43:09 · 733 阅读 · 0 评论 -
部署指南——集群模式概述和提交应用
集群模式概述 组件 Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。 具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standlone Cluster Manager,或者 Mesos,也可以使用 YARN),它们...原创 2019-03-13 16:25:36 · 196 阅读 · 0 评论 -
Structured Streaming Programming Guide
概述 结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。他可以像表达静态数据的批处理计算一样表达流式计算。 快速示例 监听本地netcat服务器的输入内容 实时计算每个单词出现的次数在屏幕上打印 可以通过运行下载的Spark目录下的程序直接启动 再另外启动一个netcat服务器 再服务器终端输入内容即可在控制台看见相应的输出 编程模型 结构化流中的关键思想是将实时数据流视为连续追...原创 2019-03-13 16:01:39 · 321 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide——性能调优
对于某些工作负载,可以通过缓存内存中的数据或打开一些实验选项来提高性能。 Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.uncacheTable(“tab...原创 2019-03-13 13:59:01 · 182 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide——数据源
Generic Load/Save Functions(通用加载保存功能) 在最简单的形式中, 默认数据源(parquet, 除非另有配置 spark.sql.sources.default )将用于所有操作。也可以指定选项。 DataFrames 也可以使用 saveAsTable 命令作为 persistent tables (持久表)保存到 Hive metastore 中,对于 file-...原创 2019-03-13 13:50:45 · 146 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide——Getting Started
Getting Started 起点: SparkSession Spark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder(): import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName...原创 2019-03-13 13:01:23 · 127 阅读 · 0 评论 -
Spark编程指南-RDD编程指南
概述 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。 Spark 提供的主要抽象是一个弹性分布式数据集(RDD)RDD 可以从一个 Hadoop 文件系统或其他地方获得。了让它在整个并行操作中更高效的重用,也许会让 Spark persist(持久化)一个 RDD 到内存中。最后,RDD 会自动的从节点故障中恢复。...原创 2019-03-13 11:41:43 · 175 阅读 · 0 评论 -
Spark编程指南-快速开始
本教程简要介绍了如何使用Spark。我们将首先通过Spark的交互式shell(在Python或Scala中)介绍API,然后展示如何使用Java,Scala和Python编写应用程序。 首先,从Spark网站下载Spark的打包版本 。由于我们不会使用HDFS,您可以下载任何版本的Hadoop的软件包。 请注意,在Spark 2.0之前,Spark的主要编程接口是Resilient Distri...原创 2019-03-12 19:56:02 · 326 阅读 · 0 评论 -
读书笔记
Spark官方文档读书笔记概述原创 2019-03-12 19:57:16 · 134 阅读 · 1 评论 -
Tuning Spark( 内存管理和数据序列化)
由于大多数spark计算的内存特性,spark程序可能会受到集群中任何资源的瓶颈:CPU、网络带宽或内存。大多数情况下,如果数据适合内存,瓶颈是网络带宽,但有时还需要进行一些调整,例如以序列化形式存储RDD,以减少内存使用。 数据序列化 序列化在任何分布式应用程序的性能中起着重要的作用。 很慢的将对象序列化或消费大量字节的格式将会大大减慢计算速度。 这可能是优化 Spark 应用程序的第一件事。 ...原创 2019-03-13 17:01:40 · 150 阅读 · 0 评论