KeyValue对RDDs之combineByKey函数

一 combineByKey() (createCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于key的聚合函数,返回的类型可以与输入类型不一样 许多基于key的聚合函数都用到了它,向groupByKey() 二 comb...

2018-02-07 19:59:14

阅读数 96

评论数 0

KeyValue对RDDs(一)

一 创建KeyValue对RDDs 使用map()函数,返回key/value 例如,包含数行数据的RDD,把每行数据的第一个单词作为keys scala> val rdd=sc.textFile("/root/helloSpark.txt") rdd: org.a...

2018-02-07 19:17:48

阅读数 114

评论数 0

RDDs的特性

一 RDDs的血统关系图 Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。 二 延迟计算(Lazy Evaluation) Spark对RDDs的计算是,他们第一次使用action操作的时候 ...

2018-02-07 18:52:16

阅读数 243

评论数 0

RDD基本操作之Action

一 Action介绍 在RDD上计算出一个结果。 把结果返回给driver program或保存在文件系统,count(),save 二 常用算子 三 常用算子应用 1 reduce() 接受一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,...

2018-02-05 22:00:00

阅读数 233

评论数 0

RDDs基本操作之Transformations(二)

一 说明 RDDs支持数据集合的计算,例如并集,交集计算。 二实战 scala> val rdd1=sc.parallelize(Array("coffe","coffe","panda","monkey&q...

2018-02-05 21:40:53

阅读数 106

评论数 0

RDDs基本操作之Transformations(一)

一 Transformations Transformations(转换):从之前的RDD构建一个新的RDD,像map()和filter() 二 逐元素Transformations 1 map函数 map():map()接收函数,把函数应用到RDD的每一个元素,返回新RDD。 ...

2018-02-04 20:52:20

阅读数 139

评论数 0

RDDs相关概念介绍

一 Driver program 包含程序的main()方法,RDDs的定义和操作。 它管理很多节点,我们称作executors 二 SparkContext 1 介绍 Driver program通过SparkContext对象访问Spark SparkContext对象...

2018-02-04 19:44:26

阅读数 729

评论数 0

Spark运行说明

一 Spark运行环境 Spark是Scala写的,运行在JVM上,所以运行环境Java7+ 如果使用Python API,需要安装Python 2.6+或者运行Python3.4+ Spark 1.6.2-Scala 2.10  Spark 2.0.0+Scala2.11 二 S...

2018-02-04 18:55:34

阅读数 396

评论数 0

Spark介绍

一 Spark是什么 Spark是一个快速且通用的集群计算平台。 二 Spark的特点 1 Spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基于内存的计算 2 Spark是通用的 Spark的设计容纳了其它分布式系统拥有的功能 批处理(Ha...

2018-02-04 14:57:54

阅读数 430

评论数 0

JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行

一 安装JDK 下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载文件名:jdk-8u162-windows-x64.exe 二 安装Scala 下...

2018-02-04 13:57:22

阅读数 315

评论数 0

Spark安装部署

一 下载Scala和Spark [root@master opt]# wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz [root@master opt]# wget http://d3kbcqa49mib13.c...

2018-02-03 22:56:39

阅读数 111

评论数 0

Spark计算模型

一 Spark程序示例 数据处理流水线: val file=sc.textFile("hdfs://XXX")          //1 输入与构造RDD val errors=file.filter(line=>line.contains("ERROR&...

2018-02-03 20:02:24

阅读数 356

评论数 1

Spark简介

一 简介与功能 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户同时将Spark部署在大量廉价硬件之上,形成集群。 1 分布式计算 2 内存计算 3 容错 4 多计算范式 Spark于...

2018-02-03 19:33:05

阅读数 388

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭