Spark--RDD编程模型

最新推荐文章于 2024-01-28 18:01:37 发布

ccj_zj

最新推荐文章于 2024-01-28 18:01:37 发布

阅读量415

点赞数

弹性分布式数据集（RDD）编程模型

1) RDD设计目标

RDD用于支持在并行计算时能够高效地利用中间结果，支持更简单的编程模型，同时也具有像MapReduce等并行计算框架的高容错性、能够高效地进行调度及可扩展性。RDD的容错通过记录RDD转换操作的lineage关系来进行，lineage记录了RDD的家族关系，当出现错误的时候，直接通过lineage进行恢复。

2) RDD抽象

RDD在Spark中是一个只读的（val类型）、经过分区的记录集合。RDD在Spark中只有两种创建方式：（1）从存储系统中创建；（2）从其它RDD中创建。从存储中创建有多种方式，可以是本地文件系统，也可以是分布式文件系统，还可以是内存中的数据。

下面的代码演示的是从HDFS中创建RDD

Scala> sc.textFile(“/readme.md”)

下面的代码演示的是从内存中创建RDD

Scala> val data = sc.parallelize( Array(1, 2, 3, 4, 5) )

下面的代码演示的是从其它RDD创建新的RDD

Scala> val filter = data.filter( x=>x>2 )

Scala> filter.collect()

3) RDD编程模型

RDD的操作包括Transformations（转换)、Actions两种。

transformations操作会将一个RDD转换成一个新的RDD，需要特别注意的是所有的transformation都是lazy的，transformation之后它不会立马执行，而只是会记住对相应数据集的transformation，只有触发action操作的时候才会真正执行。

基本的transformation 和 action的操作

实例开发：

Val rdd = sc.parallelize(List(1, 2, 3, 4, 5 ,6))

Val maprdd = rdd.map(_*2) //这是典型的函数式编程

Maprdd.collect()//上面的map是transformation，到了这里的collect才开始执行，返回一个Array Array(2,4,6,8,10,12)

Val filterrdd = maprdd.filter(_>5)

Filterrdd.collect()//返回所有大于5的数据的一个Array， Array(6,8,10,12)

Val rdd = sc.textFile(“/xxx.txt”)

Rdd.count //计算行数

Rdd.cache//可以把rdd保留在内存里面

Rdd.count//计算行数，但是因为上面进行了cache，这里速度会很快

Val wordcount = rdd.flatMap(_.split(‘ ‘)).map((_,1)).reduceByKey(_+_)

//把每一行进行根据空格分割，然后flatMap会把多个list合并成一个list，最后把每个元素变成一个元组

//然后把具有相同key的元素的value进行相加操作，参考上面图片中的函数定义，针对reduceByKey，传入的函数是对value进行操作的。

Wordcount.saveAsTextFile(“xxx.txt”) //把结果存入文件系统

Worldcount.collect //可以得到一个数组

Val rdd1 = sc.parallelize(List((‘a’,1),(‘a’,2),(‘b’,3)))

Val rdd2 = sc.parallelize(List((‘a’,4),(‘b’,5)))

Val result_union = rdd1 join rdd2 //结果是把两个list做笛卡尔积，Array(('a', (1,4), ('a', (2,4), ('b', (3, 5)))

Val rdd = sc.parallelize(List(1,2,3,4))

Rdd.reduce(_+_) //reduce是一个action，这里的结果是10

val rdd = sc.parallelize(List(('a',1),(‘a’,2),('b',1),(‘b’, 2))

rdd.lookup("a") //返回一个seq， (1, 2) 是把a对应的所有元素的value提出来组成一个seq

val wordcount = rdd.flatMap(_.split(‘ ‘)).map(_,1).reduceByKey(_+_).map(x=> (x._2, x._1).sortByKey(false).map(x => (x._2, x._1))

//其实完成了一个sort by value的过程， sortByKey(false)，表示倒序排列

参考资料：http://blog.csdn.net/yunlong34574/article/details/38635853

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark--RDD编程模型

弹性分布式数据集（RDD）编程模型1) RDD设计目标RDD用于支持在并行计算时能够高效地利用中间结果，支持更简单的编程模型，同时也具有像MapReduce等并行计算框架的高容错性、能够高效地进行调度及可扩展性。RDD的容错通过记录RDD转换操作的lineage关系来进行，lineage记录了RDD的家族关系，当出现错误的时候，直接通过lineage进行恢复。2)
复制链接

扫一扫

博客等级

码龄7年

58
原创

52
点赞

170
收藏

41
粉丝

关注

私信

热门文章

分类专栏

最新评论

多分类问题中的交叉熵
qq_31280207: 1楼说的很对，“整个样本集（或者一个batch）的似然函数”这块确实写错了。
删除二叉查找树的节点
aift: nb
多分类问题中的交叉熵
图学习小组: 有两个小失误： 1、"整个样本集（或者一个batch）的似然函数" 下面那个公式应该是连乘。这里也不需要乘以1/n，只是在说明与交叉熵的关系时前面才乘。 2、之所以用log主要是防止乘法下溢，而不是提高运算效率。
ST（稀疏表）算法
TimeCherith: 赞
多分类问题中的交叉熵
qq_39060412: 面试的时候推导多分类交叉熵损失函数，可以按上面这样推到吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。