Spark
奔走觅衣粮
活到老学到老。
展开
-
【大数据学习】之 Spark-RDD初认识
一、RDD spark未来的编程方向是DataSet或DataFrame,但是RDD是Spark 的基石、底层,所以必须要掌握先看看github上的介绍:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala或者我们可以从IDEA上的源码...原创 2018-12-28 18:00:19 · 210 阅读 · 0 评论 -
【大数据学习】之 Spark-RDD core2
一、RDD的两种创建方式Resilient Distributed Datasets (RDDs)弹性 分布式 数据集RDDS就是:弹性分布式数据集参考:http://cwiki.apachecn.org/pages/viewpage.action?pageId=2885920Spark 主要以一个弹性分布式数据集(RDD)的概念为中心,它是一个容错且可以执行并行操作的元...原创 2019-01-06 16:42:19 · 267 阅读 · 0 评论 -
【大数据学习】之 Spark-RDD core3
SparkCore03一. Spark Glossary ( Spark术语 )GlossaryThe following table summarizes terms you’ll see used to refer to cluster concepts:Term MeaningApplication User program built on Spark. Con...原创 2019-01-16 16:01:39 · 172 阅读 · 0 评论 -
【大数据学习】之 Spark-RDD core4
SparkCore04一、RDD Persistence简介。指RDD持久化,据官网的解释:Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速...原创 2019-02-15 16:16:57 · 209 阅读 · 0 评论