spark
山间浓雾有路灯,风雨漂泊有归舟
学无止境
展开
-
2.Spark与Hadoop的对比
上一篇文章—Spark概述:spark的概述这篇文章主要是与MapReduce和Hadoop的名词对比先从一张图了解下Spark和MapReduce的比较再从一张图了解一下Spark的运行原理从这张图我们再进一步进行分析Spark和Hadoop的区别Hadoop1.一个MapReduce程序就是一个job,而一个job里面可以有一个或者多个task,task又可以区分为map tas...原创 2019-07-03 08:54:30 · 211 阅读 · 0 评论 -
3.Spark Core
Spark是基于弹性分布式数据集(RDD)的模型,具有良好的通用性、容错性与并行处理数据的能力那么什么是弹性分布式内存呢?内存即使再大也有放不下数据的时候,当达到一定的阈值的时候会写入磁盘,当然这个时候的性能会受到一定的影响RDD(Resilient Distributed DataSet)RDD是弹性分布式数据集(类似于集合),它的本质是数据集的描述(只读的,可分区的分布式数据集),而不是...原创 2019-07-03 08:58:01 · 113 阅读 · 0 评论 -
4.Spark调优
在Spark中,每一个进程包含一个executor对象,一个executor包含一个线程池,每个线程执行一个tasks线程池的好处就在于省去了线程频繁启停的开销task并发度的概念1.每一个节点可以启动一个或者多个executor进程2.每一个executor进程可以有多个core组成,每一个core一次只能执行一个task,core是虚拟出的cpu,人为设定的,每次任务不能超过core...原创 2019-07-10 16:35:54 · 173 阅读 · 0 评论 -
5.Spark的wordCount(java/scala)
在代码实现之前,先查看一下数据源是怎样的Preface“The Forsyte Saga” was the title originally destined for that part of it which is called “The Man of Property”; and to adopt it for the collected chronicles of the Forsyte...原创 2019-07-10 16:37:36 · 170 阅读 · 0 评论 -
6.Spark的wordCount原理解析
针对以下wordCount的实现原理以画图的方式进行分析代码 def main(args: Array[String]): Unit = { //配置基本信息 val conf = new SparkConf().setAppName("wordCount").setMaster("local") //程序入口 val sc = new SparkContext...原创 2019-07-10 16:39:07 · 250 阅读 · 0 评论 -
1.Spark的概述
Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。先了解一下大数据的整体架构Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用...原创 2019-07-01 10:38:58 · 214 阅读 · 0 评论 -
7.Spark Streaming
Spark Streaming是Spark核心api的一个拓展,可以实现高吞吐量/具备容错机制的实时流数据的处理Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述:基于Spark做Spark Streaming的思路第一步假设我们有一小块数据,那么通过RDD Api,我们能够构造出一个进行数据处理的RDD DAG第二步我们对连续的St...原创 2019-07-16 14:28:59 · 191 阅读 · 0 评论