![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 77
夜晓楼
这个作者很懒,什么都没留下…
展开
-
Spark 2.0 Programming Guide 翻译(PySpark)
最近在看Spark,感觉一直找不到头绪,就试着根据自己的理解把Spark的Programming Guide 翻译了,其中肯定会有诸多不合适和理解不到位的地方,权当自己的笔记好了。1、spark2.0 工作依靠python2.6+或python3.4+ ,他可以使用标准的cpython解释器,所以说C libraries 例如numpy可以使用,它工作依靠pypy2.3+原创 2016-08-27 23:36:07 · 1077 阅读 · 0 评论 -
Spark学习笔记--Spark基础知识
1、RDD表示分布在多个计算节点上的可以并行操作的元素集合,是spark主要的变成抽象。Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件Spark是一个用于集群计算的通用计算框架,因此被应用于各种各样的应用程序2、从上层来看,每个saprk应用都有一个驱动器程序(driver programmer)来发起集群上的各种并行操作。驱动器程序通过原创 2016-09-08 22:57:56 · 4240 阅读 · 0 评论 -
Spark学习笔记-键值对操作
1、键值对RDD通常用来进行聚合操作。 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD。pairRDD 提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 例如: reduceByKey()方法,可以分别规约每个键对应的数据;join()方法,可以把两个RDD中键相同的元素组合到一起,合并为一个RDD。2、原创 2016-09-08 22:59:15 · 1452 阅读 · 0 评论 -
PySpark-aggregate函数说明
聚集各分区内的元素,并利用combOp和zerovalue函数将各分区合并The functions op(t1, t2) is allowed to modify t1 and return it as its result value to avoid object allocation; however, it should not modify t2.函数 op(t原创 2016-10-08 15:58:18 · 4966 阅读 · 1 评论