![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
闵浮龙
要么精彩的活,要么卑微的死
展开
-
Spark的前世今生
Spark是什么?Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、 Hive引擎,以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算, Spark SQL用于交互式查询, Spark Streaming用于实时流式计算, Spark MLlib用于机器学习, Spark Graph...转载 2018-04-27 14:11:23 · 1588 阅读 · 0 评论 -
Spark 1.3.0集群搭建
安装spark包1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。 2、解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。 3、更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4、设置spark环境变量 vi .bashrc ex...转载 2018-05-08 20:41:45 · 592 阅读 · 0 评论 -
Spark基本工作原理与RDD及wordcount程序实例和原理深度剖析
RDD以及其特点1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集) 3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;...转载 2018-05-10 07:21:27 · 1934 阅读 · 1 评论 -
Spark核心编程创建RDD及transformation和action详解和案例
创建RDD进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使...转载 2018-05-12 08:24:48 · 542 阅读 · 0 评论 -
Spark核心编程之RDD持久化详解
RDD持久化原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。巧妙使用RDD...转载 2018-05-12 09:32:38 · 299 阅读 · 0 评论 -
Spark核心编程之共享变量(Broadcast Variable和Accumulator)
共享变量工作原理Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变...转载 2018-05-12 12:42:25 · 160 阅读 · 0 评论 -
Spark核心编程之排序及取前几数字
基于排序机制的wordcount程序.javapackage cn.spark.study.core;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java...转载 2018-05-13 09:03:32 · 908 阅读 · 0 评论