2017年08月_coley-wu

11月 09月 08月 03月 01月

原创 Spark入门（七）：Spark运行时架构

在一个 Spark 集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（Driver）节点，与之对应的工作节点被称为执行器（executor）节点。驱动器节点可以和大量的执行器节点进行通信，它们也都作为独立的 Java 进程运行。驱动器节点和所有的执行器节点一起被称为一个 Spark 应用（application）。一、Spark驱动程序Spark 驱动器是执行

2017-08-24 16:08:08 604

原创 Spark入门（六）：共享变量（累加器和广播变量）

1.共享变量1.1累加器对信息进行聚合，常见用途是在调试时对作业执行过程中的时间进行计数使用过程通过在驱动器中调用 SparkContext.accumulator(initialValue) 方法，创建出存有初始值的累加器。返回值为 org.apache.spark.Accumulator[T] 对象，其中 T 是初始值 initialValue 的类型。 park闭包里的执行器代码可以使

2017-08-16 10:18:05 670

1.创建PairRDD普通RDD转Pair RDD val rdd = sc.parallelize(Array("java","scala")) rdd.foreach(println) //java //scala val pairRdd = rdd.map(w => (w,"编程语言")) pairRdd.foreach(print) //(java,编程语言) //(scala,编程语言)2

2017-08-14 16:30:24 1124

原创 Spark入门（四）：RDD基本操作

1.RDD转换RDD的所有转换操作都不会进行真正的计算1.1单个RDD转换操作# 创建测试RDD val rdd = sc.parallelize(Array("hello world","java","scala easy"))# 1.map():遍历RDD中的每个元素，将返回值构成新的RDD，返回值类型可和原RDD不一致 val mapRdd = rdd.map(x => "map:"+x) m

2017-08-14 10:29:34 2641

原创 Spark入门（三）：RDD概述

1.RDD概述Spark 对数据的核心抽象—弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）1.1 不可变RDD是一个不可变的分布式对象集合，一旦创建便不能修改。1.2 分区每个RDD都可被分为多个分区，分布在不同的节点机器之上1.3 转换（transformation）转化操作会由一个 RDD 生成一个新的 RDD，从已有的RDD派生出新的RDD,S

2017-08-12 22:39:28 635

原创 Spark入门（二）：打包程序、提交任务到集群

1.环境工具1.1环境系统 centos jdk 1.8.0_144 scala 2.11.8 hadoop 2.7.3 spark 2.1.0 1.2打包工具IDEA + sbt2.打包2.1安装插件需要预先安装scala插件，点击File ->Setting ->Plugins ->输入框输入scala->install 安装完成需要重启IDE2.2创建

2017-08-11 16:07:43 2276

原创 Spark入门（一）：核心概念简介

1.Spark核心概念简介1.1程序驱动器每个 Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的 main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。使用Scala初始化Spark

2017-08-11 15:22:06 608

原创 Hadoop伪分布式环境搭建

一、环境准备 1、Linux 2、JDK1.8 3、hadoop-2.7.3 jdk和hadoop的安装都比较简单，这里不再赘述二、Hadoop配置 hadoop安装完成后，配置文件在/etc/hadoop目录下，搭建伪分布式环境需要修改5个配置文件 1、hadoop.env.sh vim hadoop.env.sh export JAVA_HOME=/usr/java/jdk1

2017-08-05 10:58:56 344