【Spark】学习笔记二——RDDs

一、一些对象

1.Driver Program:包含程序的main()方法,RDDs的定义和操作,它管理很多节点,我们称之为executors
2.SparkContext:Driver Program通过SparkContext对象访问Spark,SparkContext对象代表和一个集群的连接
3.在shell中SparkContext对象自动创建好了,就是sc,可以在shell中直接使用sc

二、RDDs(Resilient distributed dataset——弹性分布式数据集)

1.RDDs的介绍:
1)并行的分布在集群中
2)RDDs是Spark分发数据和计算的基础抽象类
3)一个RDD是不可改变的分布式集合对象
4)Spark中,所有的计算都是通过RDDs的创建、转换等操作完成的
5)一个RDD内部由许多==partitions(分片)==组成

分片:
每个分片包括一部分数据,partitions可在集群不同节点上计算
分片是Spark并行处理的单元,Spark会顺序的、并行的处理分片

2.RDDs的创建方法:
1)把一个已存在的集合传给SparkContext的parallelize()方法,可用来测试

val rdd=sc.parallelize(Array(1,2,2,4),4)	----第一个参数:待并行化处理的集合

2&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值