初始spark

最新推荐文章于 2024-09-06 14:18:07 发布

一只考考拉

最新推荐文章于 2024-09-06 14:18:07 发布

阅读量94

点赞数

分类专栏： spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38629422/article/details/86516087

版权

spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

spark简单了解

RDD--abstract class extends Serializalble
- 五大方法

RDD–abstract class extends Serializalble

RDD是spark的基石
1.弹性分布式数据集（分区，不可变）
2.由几个分区来构成，几个partition就有几个分区
3.函数作用于每个分区,对每个分片做计算
3.和其他的rdd有一系列的依赖
4.分区器（k，v）
5.移动计算 > 移动数据,运行在block块所在的机器上

五大方法

protected def getPartitions: Array[Partition]
def compute(split: Partition, context: TaskContext): Iterator[T]
protected def getDependencies: Seq[Dependency[_]] = deps
protected def getPreferredLocations(split: Partition): Seq[String] = Nil
sparkContext就是一个筐，什么都往里面装
硬编码：

val SparkConf=newSparkConf.setMaster("local[2]").setAppName("kaolaTest")
val sc = new SparkContext(sparkConf)

灵活的写法：spark-submit --master --name

一只考考拉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初始spark

spark简单了解RDD--abstract class extends Serializalble五大方法RDD–abstract class extends SerializalbleRDD是spark的基石1.弹性分布式数据集（分区，不可变）2.由几个分区来构成，几个partition就有几个分区3.函数作用于每个分区,对每个分片做计算3.和其他的rdd有一系列的依赖4.分区器...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。