![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
任错错
学无止境
展开
-
spark架构/与调度模式
为了更好地理解调度,我们先来鸟瞰一下集群模式下的Spark程序运行架构图。 1.Driver Program 用户编写的Spark程序称为Driver Program。每个Driver程序包含一个代表集群环境的SparkContext对象,程序的执行从Driver程序开始,所有操作执行结束后回到Driver程序中,在Driver程序中结束。如果你是用spark shell,那...原创 2019-06-23 09:52:18 · 358 阅读 · 0 评论 -
大数据框架搭建集群安装配置步骤大全
一《zookeeper集群安装配置》 安装步骤: 提示:要关闭虚拟机的防火墙,执行:service iptables stop 1.准备虚拟机,安装并配置jdk,1.6以上 2.上传zookeeper的安装包 3.4.7版本 3.解压安装 tar -xvf ………… 4.配置zookeeper。 5.配置集群模式 ①切换到zookeeper安装目录的conf目录,其中有一个zoo...原创 2019-06-26 11:52:17 · 1613 阅读 · 1 评论 -
spark知识点总结
spark介绍: spark是一种轻量快速的分布式的计算框架。并不提供存储数据能力。 spark数据源:可以是HDFS,本地文件系统,kafka等数据源。 Spark处理后的数据存储目的地:HDFS,本地文件系统,Hbase,关系型数据库等。 Spark即可以用于离线批处理,还可以用于实时处理计算,机器学习。 spark引入了缓存机制并且充分的应用了这一特性,所以Spark是一种高度依赖...原创 2019-07-10 10:59:54 · 320 阅读 · 0 评论 -
spark -shuffle
Spark Shuffle详解 2018年3月1日 14:36 概述 Shuffle,翻译成中文就是洗牌。之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的WordCount为例,其中数据保存在Node1、Node2和Node3;...原创 2019-06-23 09:57:07 · 365 阅读 · 0 评论 -
spark 的RDD 缓存机制 与GC
原创 2019-06-23 09:57:39 · 181 阅读 · 0 评论