【Spark开发必备技能】6-2-RDD/Dataset/DataFrame-RDD常用方法

最新推荐文章于 2024-07-23 16:14:33 发布

Spark技术咖

最新推荐文章于 2024-07-23 16:14:33 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovechendongxing/article/details/81104106

版权

本文详细介绍了Spark开发中的RDD操作，包括RDD方法综述、创建、转换、操作、持久化、共享变量Broadcast和Accumulator，以及如何将RDD转换为DataFrame。重点强调了transformations转换的延迟执行特性以及Broadcast变量的性能优化作用。

摘要由CSDN通过智能技术生成

目录

1、RDD方法综述

3、transformations转换方法

4、actions操作方法

5、RDD持久化方法

6、共享变量Broadcast和Accumulator

7、RDD转DataFrame

1、RDD方法综述

a、RDD共包含两种计算方式，一种是transformations转换，一种是actions操作，每种计算方式包含一些常用的方法。

注意：Transformations转换是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations转换时只会记录需要这样的转换，并不会去执行，需要等到有Actions操作的时候才会真正启动计算过程进行计算。写代码的时候，一定要特别注意，基本是新手必踩的坑！！！

b、如果一个RDD需要多次调用，还可以使用持久化方法，将RDD持久化到内存或者磁盘中，该RDD再次调用时，就无需重复计算。

c、如果想在Driver和Executors之间共享大容量的变量或者使用累加器，可以采用Broadcast和Accumulator。

2、RDD创建

具体步骤如下：

a、新建Maven工程，在pom.xml文件中引入Spark的依赖包，以便能使用Spark提供的功能

b、初始化入口对象

#1）初始化SparkConf对象，SparkConf包含了Spark集群配置的各种参数。

#2）基于SparkConf对象初始化SparkSession对象。

#3）基于SparkSession对象创建JavaSparkContext对象，用于与集群资源管理器做交互

c、创建RDD

共两种方式

#1) 通过列表创建RDD

#2) 通过HDFS/AFS路径创建RDD

3、transformations转换方法

a、函数体采用Lambda表达式

RDD的转换方法涉及的func函数操作可以采用Lambda表达式，写法便捷。Lambda表达式是Java SE 8中一个重要的新特性。

Lambda表达式的格式如下：

#1) 单个参数

格式：参数 -> { 处理代码块 }

#2）多个参数

格式：(参数1, 参数2, 参数...) -> { 处理代码块 }

从下图可以看出，采用lambda表达式代码比以往的匿名函数的方式，写法更简洁

b、常用方法

我们创建两个RDD (firstRDD 和 secondRDD)作为示例，讲解常用的转换方法。

方法名

方法描述

代码示例

flatMap(func)

实现一行转多行。

作用于RDD的每一行，产出新的RDD每行为迭代器的一个元素。

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark技术咖 CSDN认证博客专家 CSDN认证企业博客

码龄15年

20: 原创

30万+: 周排名

63万+: 总排名

8万+: 访问

: 等级

774: 积分

155: 粉丝

67: 获赞

49: 评论

437: 收藏

私信

关注

热门文章

最新评论

Spark运行原理【史上最详细】
uniquewdl: 我觉得作者总体分享的还不错，不过有些内容还是需要详细描述一下，包括DAGScheduler是如何创建的，何时创建的，以及SparkContext怎么运行DAGScheduler进行划分DAG操作。最后还是感谢博主文章，真是受益匪浅。
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
zz_comeon: 大神好，为什么我这边spark处理完数据写入kafka，我看kafka里面是把一个batch的所有结果当作一条，同时在es里的数据，也只有一条，不过这一条的数据一直在更新。我是滑动窗口，窗口长度是1分钟，滑动步长是1秒，所以我可能希望ES里面有60条数据，每个窗口一条，但是结果是ES里只有一条数据。
【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序
lixia0417mul2: 如果改成update模式就不会了。update模式有重复，但是是都输出的，append模式好像总是在等wartermark
Spark运行原理【史上最详细】
dchdd: 比如 job task的划分。从action算子和宽依赖的角度去看划分，reduceByKey应该是窄依赖？Reduce是宽依赖？
Spark运行原理【史上最详细】
dchdd: sparkContext， DAGSchedule ， TaskSchedule之间的关系是不是还能再说清楚些

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。