![](https://img-blog.csdnimg.cn/2020090213265560.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark分布式计算框架
文章平均质量分 73
Spark
plenilune-望月
这个作者很懒,什么都没留下…
展开
-
Spark(三)【SparkCore】- Spark 转换算子、行动算子、持久化算子、代码流程
1. Transformations 转换算子1.1 概念: Transformations 类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey 等。Transformations 算子是延迟执行,也叫懒加载执行。1.2 Transformation 类算子: filter 过滤符合条件的记录数,true 保留,false 过滤掉。 map 将一个 RDD 中的每个数据项,通过 map 中的...原创 2021-02-07 15:41:48 · 444 阅读 · 0 评论 -
Spark(二)【SparkCore】- Spark 核心原理
1. RDDa、概念RDD(Resilient Distributed Dateset),弹性分布式数据集。b、 RDD 的五大特性: 1. RDD 是由一系列的 partition 组成的。 2. 函数是作用在每一个 partition(split)上的。 3. RDD 之间有一系列的依赖关系。 4. 分区器是作用在 K,V 格式的 RDD 上。 5. RDD 提供一系列最佳的计算位置。 c、 RDD 理解图:注意:1)、te.原创 2021-02-07 15:13:06 · 200 阅读 · 0 评论 -
Spark(一)【SparkCore】- Spark 简介
1. 什么是 SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室)所开源的类 Hadoop MapReduce 的通用并行计算框架,Spark 拥有Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce原创 2021-02-07 15:00:32 · 108 阅读 · 0 评论