RDDs介绍

Driver program:包含程序的main()方法,RDDs的定义和操作。 管理很多节点,称作为executors。如下图展示,SparkContext:Driver program通过SparkContext对象访问Spark。 SparkContext对象表示和一个集群的链接。 在Shell中SparkContext自动创建,即sc。RDDs:Resilient distributed datasets (弹性分布式数据集,简写RDDs)。 RDDs并行的分布在整个集群
摘要由CSDN通过智能技术生成

Driver program:

  1. 包含程序的main()方法,RDDs的定义和操作。
  2. 管理很多节点,称作为executors。如下图展示,

SparkContext:

  1. Driver program通过SparkContext对象访问Spark。
  2. SparkContext对象表示和一个集群的链接。
  3. 在Shell中SparkContext自动创建,即sc。

RDDs:

  1. Resilient distributed datasets (弹性分布式数据集,简写RDDs)。
  2. RDDs并行的分布在整个集群中。
  3. RDDs是Spark分布数据和计算的基础抽象类。
  4. 一个RDD是一个不可改变的分布式集合对象。
  5. Spark中,所有计算是通过RDDs的创建,转换,操作完成的。
  6. 一个RDD内部有许多partitions(分片)组成。每个分片包含一部分数据,partitions可在集群不同节点上计算;分片是Spark并行处理的单元,spark顺序的,并行的处理分片。

RDDs的创建方法:

  1. 把一个存在的集合传给SparkContext的parallelize()方法,测试用val rdd=sc.parallelize(Array(1,2,2,4),4),第一个参数:待并行化处理的集合,第二个参数
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值