Spark----RDD介绍

一、概念

RDD(Resilient Distributed Datasets),弹性分布式数据集。特点是可以并行操作,并且是容错的。有两种方法可以创建RDD:
1.执行Transform操作(变换操作);
2.读取外部存储系统的数据集,如:HDFS、HBase,或者任何与Hadoop相关的数据源。

二、入门实例

案例一:

//scala 语言
val data = Array(12345)
val r1 = data.parallelize(data)
val r2 = data.parallelize(data,2)

你可以把RDD想象为一个特殊的集合类,上面的data是一个普通的集合类型,然后通过parallelize函数的转换成为一个RDD;r1是一个普通的RDD,r2多带了一个参数,这代表的是分区操作。表示r2是一个分区的RDD,这么做的目的是:分布式处理。这对于大规模数据是很有意义的。r2在底层可能这样表示:RDD(1,2)(3,4,5)。
案例二:

val data = SparkContext.textFile("data.txt")

这个data就是一个从外部存储系统中导入生成的一个RDD。
SparkContext是spark实例对象。
然后就可以在生成好的RDD上做操作,得到想要的数据。
下一节:RDD操作
如果有错误或者模糊,请多见谅!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值