初始spark

RDD–abstract class extends Serializalble

RDD是spark的基石
1.弹性分布式数据集(分区,不可变)
2.由几个分区来构成,几个partition就有几个分区
3.函数作用于每个分区,对每个分片做计算
3.和其他的rdd有一系列的依赖
4.分区器(k,v)
5.移动计算 > 移动数据,运行在block块所在的机器上

五大方法

  1. protected def getPartitions: Array[Partition]

  2. def compute(split: Partition, context: TaskContext): Iterator[T]

  3. protected def getDependencies: Seq[Dependency[_]] = deps

  4. protected def getPreferredLocations(split: Partition): Seq[String] = Nil

  5. sparkContext就是一个筐,什么都往里面装

  6. 硬编码:

val SparkConf=newSparkConf.setMaster("local[2]").setAppName("kaolaTest")
val sc = new SparkContext(sparkConf)
  1. 灵活的写法:spark-submit --master --name
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值