Spark RDD与共享变量简介

最新推荐文章于 2024-07-10 09:55:20 发布

lovemelovemycode

最新推荐文章于 2024-07-10 09:55:20 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： spark RDD 共享变量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hi_1234567/article/details/41309469

大数据专栏收录该内容

21 篇文章

订阅专栏

本文简要介绍了Hadoop的计算组件MapReduce及其高效替代品Spark的基本概念，特别是弹性分布式数据集RDD与共享变量（广播变量和累加器变量）。通过示例代码展示了如何创建RDD、并行操作数据集，以及使用广播变量和累加器变量进行高效计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hadoop有两个东东：HDFS（存储）和MapReduce（计算）。MapReduce计算比较慢，于是Spark（速度是MR的10~100倍）出现了。Spark有两个核心的概念：弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。

弹性分布式数据集（RDD）获得方式：1并行化驱动程序内的集合; 2从外部数据集加载。

1 并行化驱动程序内的集合code demo

val data = Array(1,2,3,4,5,6,7,8,9) //普通数组

val distData = sc.parallelize(data) //弹性分布式数组

val sum = distData.reduce((a,b) => a+b) //并行求和

print(sum) //打印

2 从外部数据集加载 code demo

val awsFile = sc.textFile("/user/hdfs/aws/2012/total.txt") //获取弹性分布式文件

val lineNum = awsFile.count() //获取行数

print(lineNum) //打印

Spark 共享变量分为两种：广播变量（broadcast variables）和累加器变量(accumulators variables)

1广播变量（broadcast variables）获取code demo

val broadcastVal = sc.broadcast(Array(1,2,3,45,6)) //得到broadcast变量

broadcastVal.value //变量取值

2累加器变量(accumulators variables)获取 code demo

val accu = sc.accumulator(0,"firstaccumulator") //得到accumulators变量

sc.parallelize(Array(1,2,3,45,6)).foreach(x => accu +=x) //数组求和运算

print(accu.value) //结构打印

其它：

1 如何持久化（缓存、写到硬盘等）RDD

rdd.persist() //功能很全

rdd.cache() //到内存

2 如何使缓存失效

rdd.unpersist() //持久化失效

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。