（三）spark算子分为3大类

最新推荐文章于 2024-10-29 09:57:15 发布

weixin_30381793

最新推荐文章于 2024-10-29 09:57:15 发布

阅读量114

点赞数

文章标签：大数据 scala

原文链接：http://www.cnblogs.com/zhangXingSheng/p/6606811.html

版权

ation算子通过sparkContext执行提交作业的runJob，触发rdd的DAG执行

（foreach）

foreach（f）会对rdd中的每个函数进行f操作，下面的f操作就是打印输出没有元素

saveAsTextFile

将rdd保存到hdfs指定的路径，将rdd中每一个分区保存到hdfs上的block

saveAsObjectFile

将rdd中每10个元素组成一个array，然后将这个array序列化，映射为（null，bytesWritable(y)）

写入hdfs为Sequence格式

collect

collect将分布式的rdd返回成一个scala数组，通过函数操作，将结果返回到driver节点上存储

collectAsMap

对key-value型的rdd返回一个单击的hashMap,如果key值相同则后面的元素替换前面的元素

reduceByKeyLocally

实现是先reduce再collectAsMap操作，将结果返回一个hashMao

lookup

对key-value型的rdd进行操作，通过指定的key，返回对应元素的Seq()对象，这个算子的优化在于

如果这个rdd包含分区器，那么就只对指定key所在的分区进行扫描，如果没有则会对rdd进行全量扫描

count

就是返回整个rdd元素的个数

reduce

reduce就是先将rdd中的每个分区key-value的集合进行reduceLeft，在对每个分区形成的集合reduceFeft

广播变量

他广泛用户map site join 这些小表，以及广播大变量等场景，这些数据集合在单节点内存能够容纳，不想rdd那样在节点中打散，spark运行时会把广播变量的数据发送到各个节点，保存下来，后续计算可以复用

转载于:https://www.cnblogs.com/zhangXingSheng/p/6606811.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30381793

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【大数据技术干货】一次性完全总结分析spark中的三种抽象数据集（RDD、DataFrame和DataSet）的源码，定义，创建，用法，共性，区别，以及它们相互之间的联系

liuchunhang的博客

12-13

342

一RDD、DataFrame和DataSet的定义 1Spark RDD ① RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、弹性、里面的元素可并行计算的集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区，这些分...

Spark集群及开发环境搭建（完整版）

04-09

Spark集群及开发环境搭建，适合初学者，一步一步并配有截图。目录一、软件及下载 2 二、集群环境信息 2 三、机器安装 2 1. 安装虚拟机VirtualBox 2 2. 安装CentOs7 2 四、基础环境搭建（hadoop用户下） 6 1. 机器名HostName 6 2. 关闭防火墙 6 3. 系统更新及常用工具安装 7 4. IP配置 8 5. JDK安装 8 五、 Hadoop安装及配置 9 1. 安装 9 2. 配置 10 六、机器集群搭建 12 1. 复制机器 13 2. 设置静态IP 13 3. 设置机器名hostname 14 4. ssh免密登录 14 5. hadoop集群测试 16 七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试spark集群 20 八、 Scala开发 20 1、插件下载 20 2、插件安装 21 3、scala开发 22 4、程序执行 22

参与评论您还未登录，请先登录后发表或查看评论

spark的三种算子详解

wuyue的博客

07-20

1067

今天也要努力学习 1.Transformations转换算子定义：Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。需要被action类算子进行触发执行。算子举例： f...

spark第二天（十天）

YueQingFeng445的博客

07-21

565

一.Spark常用算子讲解 Spark的算子的分类　从大方向来说，Spark 算子大致可以分为以下两类: 1. Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 ...

spark笔记之数组、映射、元组、集合

qq_40208605的博客

08-09

7397

1.1. 数组1.1.1. 定长数组和变长数组（1）定长数组定义格式： val arr=new Array[T](数组长度) （2）变长数组定义格式： val arr = ArrayBuffer[T]() 注意需要导包：import scala.collection.mutable.ArrayBuffer [AppleScript] 纯文本查看复制代码 ? ...

25个经典Spark算子的JAVA实现

08-16

这些算子主要分为两大类：转换算子（Transformation）和行动算子（Action）。转换算子用于创建新的RDD，而行动算子则用于触发计算并将结果返回给驱动程序或存储到外部系统中。 ### 转换算子详解 #### 1. Map ...

spark算子基础讲义1

03-13

Spark 算子可以分为两大类： narrow dependency 算子和 wide dependency 算子。Narrow dependency 算子是指在同一个节点上执行的算子，而 wide dependency 算子是指在多个节点上执行的算子。二、RDD 概念 RDD...

spark基本算子操作

03-21

这些算子分为两类：转换（Transformations）和动作（Actions）。转换算子用于创建新的分布式数据集，而动作算子则用于触发计算并返回结果到驱动程序。本文主要介绍Spark中的基本转换算子及其应用场景。 #### 二、...

Spark算子的详细使用方法

12-05

Spark 算子可以分为两类：Transformation 变换/转换算子和 Action 行动算子。 Transformation 变换/转换算子并不触发提交作业，完成作业中间过程处理。Action 行动算子会触发 SparkContext 提交 Job 作业。 ...

java-spark中各种常用算子的写法示例

08-27

Spark 中的算子可以分为两大类：Transformation 变换/转换算子和 Action 行动算子。Transformation 算子并不触发提交作业，完成作业中间过程处理，而 Action 算子会触发 SparkContext 提交 Job 作业。在 Java 中...

Spark的算子的分类

kgars1的博客

10-16

1747

从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）Action 行动算子：

常见算子使用_【每日一题】Spark的算子可以分为哪两类，区别是什么？

bobo的博客

01-15

876

大家好，我是勾叔。今天的面试题是：Spark的算子可以分哪两类，这两类算子的区别是什么？并分别列举6个这两类算子，列举6个会产生Shuffle的算子。问题分析考察基本功，从多个维度考察对算子的理解。核心问题回答Spark的算子可以分为两类：Transformation、Action。Transformation：从现有的数据集创建一个新的数据集，返回一个新的 RDD 操作。Transfo...

Spark -3：三种集群模式

sun

11-14

4730

Spark支持以下3中集群管理器： Standalone – Spark自带的一个简单的集群管理器，这使得启动一个Spark集群变得非常简单。Apache Mesos – 一种可以运行Hadoop MapReduce或者服务型应用的通用集群管理器。 Hadoop YARN – Hadoop 2的集群管理器。

（一）spark算子分为3大类

weixin_30371875的博客

03-23

161

value类型的算子处理数据类型为value型的算子（也就是这个算子只处理数据类型为value的数据），可以根据rdd的输入分区与输出分区的关系分为以下几个类型（1）输入分区与输出分区一对一型 map型：对rdd的每个数据项，通过用户自定义的函数映射转换成一个新的rdd 上面4个方框表示4个rdd分区，当第一个方框中的rdd经过用户自定义的map函数从v1映射为v,1.这种操作只有...

spark中的各种算子分类

weixin_38842096的博客

11-20

1231

1、Trasformtion算子 union、reduceByKey、groupBy、join、map、mapPartition 、cogroup、parallelize、textFile、leftoutJoin、flatMap、coalesce、Repartition 2、Action算子 count、take、collect、foreach、foreachPartition、saveAsTex...

Spark 之Spark三大数据结构

向日葵的博客

12-02

1849

Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区（很少使用）二、累加器2.1 运用累加器求数据之和三、广播变量：分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构：RDD、广播变量、累加器。 Spark 知识系列文章此处罗

Spark深入解读（四）---- 算子分类及功能描述

北京小辉

05-22

3777

目录：一、简介二、Value型Transformation算子三、Key-Value型Transformation算子四、Actions算子————————————————————————————————————————–一、简介spark算子大致上可分三大类算子： 1、Value数据类型的Transformation算子，这种变换不触发提交作业，针对处理的数据项是Value型的数据

以AI赋能身份验证，Jumio助力中国企业出海

趣味科技v

10-28

711

近年来，越来越多的中国企业开始扬帆出海积极拓展全球市场。而能够为企业出海提供各种助力的技术与解决方案，也成为了众多企业关注的焦点。作为全球领先的在线身份验证和欺诈预防解决方案提供商，Jumio于近日在北京举办了中国媒体见面会，旨在向中国的媒体和业界介绍Jumio的最新技术进展、市场布局以及如何通过其创新解决方案助力中国企业出海。多年的技术创新与专利积累介绍Jumio的基本情况时，Jumio亚太区区...

人工智能和大数据如何改变企业？

（三）spark算子 分为3大类

（三）spark算子分为3大类