spark
朱小厮
你知道的越多 你不知道的也就越多
展开
-
[Kafka与Spark集成系列一] Spark入门
Spark是一个用来是实现快速而通用的集群计算的平台。Spark是UC Berkeley AMP Lab(加州大学伯克利分销的AMP实验室)所开源的类MapReduce的通用并行框架, 现在已经是Apache中的一个顶级项目。Spark使用Scala语言开发,支持Scala、Java、Python、R语言相关的API,运行于JVM之上。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,...原创 2018-08-26 16:41:38 · 4002 阅读 · 0 评论 -
[Kafka与Spark集成系列二] Spark的安装及简单应用
下载Spark安装包是安装的第一步,下载地址为http://spark.apache.org/downloads.html。截止撰稿之时,Spark最新版本为2.3.1,如下图所示,我们可以从官网中选择spark-2.3.1-bin-hadoop2.7.tgz进行下载。在下载过后,笔者是先将安装包拷贝至/opt目录下,然后执行相应的解压缩动作,示例如下:[root@node1 op...原创 2018-08-26 16:48:00 · 1907 阅读 · 0 评论 -
[Kafka与Spark集成系列三] Spark编程模型
在Spark中,我们通过对分布式数据集的操作来表达我们的计算意图,这些计算会自动地在集群上并行进行。这样的数据集被称为弹性分布式数据集(Resilient Distributed Dataset),简称RDD。RDD是Spark对分布式数据和计算的基本抽象。在Spark中,对数据的所有操作不外乎创建RDD、转换已有RDD以及调用RDD操作进行求值。在《Spark的安装及简单应用》的单词统计示例中,...原创 2018-08-26 16:54:27 · 1101 阅读 · 0 评论 -
[Kafka与Spark集成系列四] Spark运行结构
在分布式环境下,Spark集群采用的是主从架构。如下图所示,在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点,这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(Executor)节点。驱动器节点可以和大量的执行器节点进行通信,它们也都作为独立的进程运行。驱动器节点和所有的执行器节点一起被称为一个Spark应用(Application)。...原创 2018-08-26 16:56:55 · 1514 阅读 · 0 评论