Spark
文章平均质量分 68
chengqiuming
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark简介
一 简介与功能Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户同时将Spark部署在大量廉价硬件之上,形成集群。1 分布式计算2 内存计算3 容错4 多计算范式Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下顶级开源项目。原创 2018-02-03 19:33:05 · 687 阅读 · 0 评论 -
KeyValue对RDDs之combineByKey函数
一 combineByKey()(createCombiner,mergeValue,mergeCombiners,partitioner)最常用的基于key的聚合函数,返回的类型可以与输入类型不一样许多基于key的聚合函数都用到了它,向groupByKey()二 combineByKey工作原理遍历parition中的元素,元素的key,要么之前见过的,要么没见过。原创 2018-02-07 19:59:14 · 343 阅读 · 0 评论 -
KeyValue对RDDs(一)
一 创建KeyValue对RDDs使用map()函数,返回key/value例如,包含数行数据的RDD,把每行数据的第一个单词作为keysscala> val rdd=sc.textFile("/root/helloSpark.txt")rdd: org.apache.spark.rdd.RDD[String] = /root/helloSpark.txt MapPartitions原创 2018-02-07 19:17:48 · 447 阅读 · 0 评论 -
RDDs的特性
一 RDDs的血统关系图Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。二 延迟计算(Lazy Evaluation)Spark对RDDs的计算是,他们第一次使用action操作的时候这种方式在处理大数据的时候特别有用,可以减少数据的传输Spark内部记录metadata表名tra原创 2018-02-07 18:52:16 · 622 阅读 · 0 评论 -
RDD基本操作之Action
一 Action介绍在RDD上计算出一个结果。把结果返回给driver program或保存在文件系统,count(),save二 常用算子三 常用算子应用1 reduce()接受一个函数,作用在RDD两个类型相同的元素上,返回新元素。可以实现,RDD中元素的累加,计数,和其他类型的聚集操作。scala> val rdd = sc.paral原创 2018-02-05 22:00:00 · 900 阅读 · 0 评论 -
RDDs基本操作之Transformations(二)
一 说明RDDs支持数据集合的计算,例如并集,交集计算。二实战scala> val rdd1=sc.parallelize(Array("coffe","coffe","panda","monkey","tea"))rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize原创 2018-02-05 21:40:53 · 408 阅读 · 0 评论 -
RDDs基本操作之Transformations(一)
一 TransformationsTransformations(转换):从之前的RDD构建一个新的RDD,像map()和filter()二 逐元素Transformations1 map函数map():map()接收函数,把函数应用到RDD的每一个元素,返回新RDD。scala> val lines = sc.parallelize(Array("hello","sp原创 2018-02-04 20:52:20 · 624 阅读 · 0 评论 -
RDDs相关概念介绍
一 Driver program包含程序的main()方法,RDDs的定义和操作。它管理很多节点,我们称作executors二 SparkContext1 介绍Driver program通过SparkContext对象访问SparkSparkContext对象代表和一个集群的连接在Shell中SparkContext自动创建好了,就是sc2 示例s原创 2018-02-04 19:44:26 · 2561 阅读 · 0 评论 -
Spark运行说明
一 Spark运行环境Spark是Scala写的,运行在JVM上,所以运行环境Java7+如果使用Python API,需要安装Python 2.6+或者运行Python3.4+Spark 1.6.2-Scala 2.10 Spark 2.0.0+Scala2.11二 Spark下载下载地址:http://spark.apache.org/downloads.ht原创 2018-02-04 18:55:34 · 722 阅读 · 0 评论 -
Spark介绍
一 Spark是什么Spark是一个快速且通用的集群计算平台。二 Spark的特点1 Spark是快速的Spark扩充了流行的Mapreduce计算模型Spark是基于内存的计算2 Spark是通用的Spark的设计容纳了其它分布式系统拥有的功能批处理(Hadoop),迭代式计算(机器学习)、交互查询(Hive)和流处理(Storm)等优点:降低了维护成原创 2018-02-04 14:57:54 · 710 阅读 · 0 评论 -
JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行
一 安装JDK下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载文件名:jdk-8u162-windows-x64.exe二 安装Scala下载地址https://downloads.lightbend.com/scala/2.11.8/s原创 2018-02-04 13:57:22 · 782 阅读 · 0 评论 -
Spark安装部署
一 下载Scala和Spark[root@master opt]# wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz[root@master opt]# wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz二 安装原创 2018-02-03 22:56:39 · 357 阅读 · 0 评论 -
Spark计算模型
一 Spark程序示例数据处理流水线:val file=sc.textFile("hdfs://XXX") //1 输入与构造RDDval errors=file.filter(line=>line.contains("ERROR")) //2 转换Transformationerrors.count() //输出Action归原创 2018-02-03 20:02:24 · 696 阅读 · 1 评论 -
RDDs的特性
一 RDDs的血统关系图Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。二 延迟计算(Lazy Evaluation)Spark对RDDs的计算是,他们第一次使用action操作的时候这种方式在处理大数据的时候特别有用,可以减少数据的传输Spark内部记录metadata表名tran...原创 2019-09-30 19:27:16 · 473 阅读 · 0 评论
分享