Spark API

Spark API主要有两个抽象部件组成:Spark Context和RDD,应用程序通过这两个部件和Spark进行交互,连接到Spark集群并使用相关资源。

1.Spark Context

是定义在Spark库中的一个类,作为Spark库的入口,包含应用程序 main( ) 方法的Driver program通过Spark Context对象访问Spark,因为Spark Context对象表示与Spark集群的一个连接。每个Spark应用都有且只有一个Spark Context类实例,如果需要新的实例,必须先让当前实例失活。

(在Shell设立了中Spark Context已经自动创建好,就是sc)

val sc = new SparkContext()

2.RDD
RDD基础概念

  • 弹性分布式数据集
  • 并行分布在整个集群中

把指定路径下的文本文件加载到linex这个RDD中,这个lines就是一个RDD,代表就是整个文本文件

val lines = new sc.textFile("home.haha.helloSpark.txt")

即使这个文件超大,分片存储在多台机器上,操作时可以直接使用RDD对整个文件进行操作。

  • RDD时Spark分发数据和计算的基础抽象类

例如:lines.count()

在 . count()的函数操作时在RDD数据集上的,而不是对某以具体分片

  • 一个RDD是不可以改变的分布式数据集合对象

就lines来说,如果我们对其待变的源文件进行了增删改查操作,则相当于生成了一个新的RDD,来存放修改后的数据集

  • Spark中所有的计算都是通过RDD的创建,转换,操作完成的
  • 一个RDD内部由许多 partition(分片)组成

partitions:

每个分片包括一部分数据,分片可在集群不同节点上计算

分片时Spark并行处理的单元,Spark顺序的,并行处理分片

RDD创建方法

1.把一个存在的集合传给Spark Context的parallize()方法(一般测试的时候使用这个方法)

val rdd = sc.parallelize(Array(1,2,2,1),4)
//参数1:待并行化处理的集合;参数2 :分区个数 4
rdd.count()//参看个数
rdd.foreach(print)//查看RDD所有对象
//注意:每次foreach出来数值顺序会不一样,应为数据存储与4个分区,从哪个分出读数值是随机的。

2.加载外部数据集

//用textFile方法加载
//该方法返回一个RDD,该RDD代表的数据集每个元素都是一个字符串,每个字符串代表输入文件中的一行
val rddText = sc.textFile("helloSpark.txt")
//用wholeTextfiles方法加载
//这个方法读取目录下的文本文件,然后返回一个KeyValue对RDD(每一个键值对对应一个文件,key为文件路径,value为文件内容)
val rddw = sc.wholeTextFile
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值