SparkNode
文章平均质量分 75
杨老七
热爱生活的程序员一枚
展开
-
Spark详解(二、SparkCore)
SparkCore是Spark计算引擎的基础,后面的sparksql以及sparkstreaming等,都是基于SparkCore的。这里笔者就开始详细的介绍SparkCore。如果要介绍SparkCore,必须详细介绍一下RDD。一、RDD编程RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,我们如果要对数据进行操作,不外乎就是创建RDD对数据进行操作。原创 2021-12-27 20:32:21 · 2482 阅读 · 1 评论 -
Spark详解(一、Spark概述)
Spark是一种基于内存的快速的、通用、可拓展的大数据分析计算引擎。一、Spark与MapReduceHadoop框架中的MapReduce计算引擎,也是一种大数据分析计算引擎。那既然已经又来MR那我们为何还要开发Spark计算模型呢?或者说这两者有何相同之处?在应用方面有何不同?1、Spark与HadoopHadoop是一个开源的生态圈,有文件储存的HDFS,有计算引擎MR,有资源调度的YARN,以及数据库的Hbase等等。Spark就仅仅是一个计算引擎,仅仅相对的是MR。并不能...原创 2021-12-13 22:42:35 · 9777 阅读 · 0 评论