- 博客(8)
- 资源 (28)
- 收藏
- 关注
原创 Spark入门(七):Spark运行时架构
在一个 Spark 集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节 点进行通信,它们也都作为独立的 Java 进程运行。驱动器节点和所有的执行器节点一起被称为一个 Spark 应用(application)。一、Spark驱动程序Spark 驱动器是执行
2017-08-24 16:08:08 604
原创 Spark入门(六):共享变量(累加器和广播变量)
1.共享变量1.1累加器对信息进行聚合,常见用途是在调试时对作业执行过程中的时间进行计数使用过程 通过在驱动器中调用 SparkContext.accumulator(initialValue) 方法,创建出存有初 始值的累加器。返回值为 org.apache.spark.Accumulator[T] 对象,其中 T 是初始值 initialValue 的类型。 park闭包里的执行器代码可以使
2017-08-16 10:18:05 670
原创 Spark入门(五):键值对RDD
1.创建PairRDD普通RDD转Pair RDD val rdd = sc.parallelize(Array("java","scala")) rdd.foreach(println) //java //scala val pairRdd = rdd.map(w => (w,"编程语言")) pairRdd.foreach(print) //(java,编程语言) //(scala,编程语言)2
2017-08-14 16:30:24 1124
原创 Spark入门(四):RDD基本操作
1.RDD转换RDD的所有转换操作都不会进行真正的计算1.1单个RDD转换操作# 创建测试RDD val rdd = sc.parallelize(Array("hello world","java","scala easy"))# 1.map():遍历RDD中的每个元素,将返回值构成新的RDD,返回值类型可和原RDD不一致 val mapRdd = rdd.map(x => "map:"+x) m
2017-08-14 10:29:34 2641
原创 Spark入门(三):RDD概述
1.RDD概述Spark 对数据的核心抽象—弹性分布式数据集(Resilient Distributed Dataset,简 称 RDD)1.1 不可变RDD是一个不可变的分布式对象集合,一旦创建便不能修改。1.2 分区每个RDD都可被分为多个分区,分布在不同的节点机器之上1.3 转换(transformation)转化操作会由一个 RDD 生成一个新的 RDD,从已有的RDD派生出新的RDD,S
2017-08-12 22:39:28 635
原创 Spark入门(二):打包程序、提交任务到集群
1.环境工具1.1环境 系统 centos jdk 1.8.0_144 scala 2.11.8 hadoop 2.7.3 spark 2.1.0 1.2打包工具IDEA + sbt2.打包2.1安装插件需要预先安装scala插件,点击File ->Setting ->Plugins ->输入框输入scala->install 安装完成需要重启IDE2.2创建
2017-08-11 16:07:43 2276
原创 Spark入门(一):核心概念简介
1.Spark核心概念简介1.1程序驱动器每个 Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种 并行操作。驱动器程序包含应用的 main 函数,并且定义了集群上的分布式数据集,还对这 些分布式数据集应用了相关操作。 驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连 接。 使用Scala初始化Spark
2017-08-11 15:22:06 608
原创 Hadoop伪分布式环境搭建
一、环境准备 1、Linux 2、JDK1.8 3、hadoop-2.7.3 jdk和hadoop的安装都比较简单,这里不再赘述 二、Hadoop配置 hadoop安装完成后,配置文件在/etc/hadoop目录下,搭建伪分布式环境需要修改5个配置文件 1、hadoop.env.sh vim hadoop.env.sh export JAVA_HOME=/usr/java/jdk1
2017-08-05 10:58:56 344
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人