![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 75
蓝色格子
这个作者很懒,什么都没留下…
展开
-
Spark中action和transformation算子
RDD是不可变型的,并且针对RDD的每个操作都将创建一个新的RDD。可以在RDD上执行两种类型的操作,即:action和transformation1、transformationtransformation通过对现有RDD中的每个元素应用转换逻辑来生成新的RDD。一些转换函数可以对元素进行拆分、过滤或执行排序计算操作。多个transformation算子可按顺序操作;但在transformation阶段,并不会真正执行任务。对于transformation算子,Spark会将其加入包含了计算的DA原创 2021-07-30 07:50:57 · 510 阅读 · 0 评论 -
windows中安装Spark
由于Spark是基于Scala编写的,而Scala又是依赖于Java,所以需要你先安装Scala以及JDK。有时我们需要依赖HDFS去取数据或者使用YARN集群部署,所以需要一般也需要安装Hadoop。安装JDK以及安装Sacla这里不做介绍。1.下载Spark包进入Spark的下载页面,选择需要下载的tgz文件。2.下载Hadoop包下载Spark时,我们选择的是Hadoop 2.7,所以我们进入Apache Hadoop下载页中下载对应版本的tar.gz文件3. 安装Spark解压下载后原创 2021-07-27 07:57:54 · 6225 阅读 · 0 评论 -
Spark RDD(分布式弹性数据集)
分布式弹性数据集(RDD)是一个不可变型分布式对象集合,这些元素分布在集群中的多个节点上。RDD是Spark中使用的基本对象。他们是不可变型集合,用于表示数据,并且内置了可靠性以及故障恢复能力。Spark RDD是弹性的,并具备容错能力,它使得Spark能在出现故障时恢复RDD。不可变性使得RDD一旦被创建就是只读的。可对RDD进行转换从而创建新的RDD,但原始RDD在原始RDD在创建后永远都不会被修改的。这使得RDD能不受争用和其他同步问题的影响。RDD的分布式天性则是由于RDD只包含数据的一个引用,原创 2021-07-24 14:14:05 · 486 阅读 · 0 评论 -
Spark集群的三种部署模式
Spark有主要有三种部署模式:Spark独立服务器模式、基于YARN的Spark、基于Mesos的Spark。1.Spark独立服务器模式独立服务器模式使用内置的调度器,因而不需要任何外部调度器,如YARN或Mesos。要以独立服务器模式安装Spark,需要将Spark的二进制安装文件复制到集群的所有机器上。独立服务器模式下,客户端可通过spark-submit或Spark shell与集群通信。无论那种情况,driver都会与Spark主节点进行通信,以便获取worker节点的信息,此后execu原创 2021-07-22 22:48:32 · 3612 阅读 · 1 评论 -
Spark简介
Apark Spark是一个可跨不同工作负载和平台的统一的分布式计算引擎。可通过自有的各种组件(Spark Streaming、Spark ML、Spark SQL、Spark GraphX)连接到不同平台,并处理各种不同的数据工作负载。其是一个数据处理框架,可由其它技术提供分布数据存储上执行操作。Apark Spark是一个基于内存的快速数据处理引擎,它具有优雅且极具表现力的API。它由Spark core和一组库文件组成。Spark core是一个分布执行引擎,其包含的java、Scala及Pytho原创 2021-07-20 08:04:52 · 265 阅读 · 0 评论