spark
燃烧的岁月_
coding
展开
-
Spark是什么?
Spark特点: 1、内存计算 2、提供了支持DAG图的分布式并行计算框架,减少多次计算之间结果IO开销 3、提供Cache机制来支持多次迭代计算或者数据共享,减少IO开销 4、RDD之间维护了血统关系,一旦RDD fail掉了,能通过父RDD自动重建,保证了容错性 5、移动计算而非移动数据,RDD Partition可以就近读取分布式文原创 2016-05-22 11:00:33 · 734 阅读 · 0 评论 -
Spark笔试题
1. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming B Mlib C Graphx D Spark R2.下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040 C.8090 D.180803.spark 1.4 版本的最大变化 (B )A spark sql Release 版本 B 引入 Spa原创 2016-11-09 06:54:16 · 21312 阅读 · 0 评论 -
Spark百例
1、测试字母统计import org.apache.spark.{SparkConf, SparkContext}/** * Created by zyf on 7/25/16. * 统计a,b的数量 */object SimpleApp { def main(args: Array[String]) { val logFile = "hdfs原创 2016-08-11 09:28:20 · 394 阅读 · 0 评论 -
Spark+kafka+SparkStreaming实例
-------------------------------------------------------AdClickedStreamingStatus -------------------------------------------------------------------------------------------------import java.sql.Conne转载 2016-11-04 04:19:34 · 2111 阅读 · 0 评论 -
王家林Spark笔记
王家林Spark笔记第一讲:Scala光速入门本期内容1、Scala的重大价值2、Scala基础语法入门实战3、Scala函数入门实战4、Scala中Array、Map、Tuple实战5、综合案例及Spark源码解析kafka 消息中间件val name:String = nullimport scala.math._min(20,4)Arr原创 2016-08-25 02:26:07 · 2988 阅读 · 0 评论 -
窄依赖和宽依赖图
原创 2016-08-25 02:35:31 · 961 阅读 · 0 评论 -
Spark笔记
第三十课Master的注册机制和状态管理 一、Master对其它组件注册的处理 1、Master接受注册的对象主要就是:Driver、Application、Worker;不要补充说明是Executor不会注册给Master,Executor是注册给Driver中的SchedulerBackend的; 2、Worker是在启动后主动向Master注册的,所以如果在生产环境下加入新的Worker原创 2016-09-01 14:03:26 · 321 阅读 · 0 评论 -
Spark on Yarn 图
原创 2016-07-30 09:00:49 · 618 阅读 · 0 评论 -
RDD学习笔记
1. 驱动程序(driver program)----> 运行main行数共享变量:有的时候在不同节点上,需要同时运行一系列的任务,将每一个函数中用到的变量进行共享 1.广播变量:缓存到各个节点的内存中,而不是task中 2.累加器:只能用于加法的变量Master URLs:local:本地local[K]:K个线原创 2016-08-01 04:29:35 · 3700 阅读 · 0 评论 -
SparkRDD的概念和定义
1、RDD是什么 (1)为什么会产生RDD? 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法 (2)RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特原创 2016-08-01 04:00:13 · 5164 阅读 · 0 评论 -
Spark小象学院笔记
---小象学院陈超视频教程笔记------陈超讲第一节Scala基础与实践基于JVM的FP+OO静态类型和Java互操作函数式编程和面向对象的结合,纯静态的语言。解释器(interpreter)值与变量(val & var)函数(Function)1、常量 val2、变量 var3、main函数要定义在object里面实例:o原创 2016-07-22 04:20:46 · 2486 阅读 · 0 评论 -
Spark集群安装笔记
# HADOOP VARIABLES STARTexport JAVA_HOME=/usr/javaexport JRE_HOME=$JAVA_HOME/jreexport SCALA_HOME=/usr/scala-2.11.6export MAVEN_HOME=/usr/apache-maven-3.3.9export ANT_HOME=/usr/apache-ant-1.原创 2016-07-26 03:56:28 · 621 阅读 · 0 评论 -
Spark Scheduler
----------Spark Scheduler 操作流程----------------------------------1、RDD object :执行spark程序--》action--》逆向构建 build operator DAG(RDD Graph)图2、DAG Scheduler:对DAG图进行调度 把RDD打乱分配到下一阶段不同的RDD分片上去 接受用原创 2016-07-31 15:16:41 · 615 阅读 · 0 评论 -
BDAS图
原创 2016-07-18 03:36:36 · 771 阅读 · 0 评论 -
Spark架构和应用
原创 2016-07-26 08:33:40 · 323 阅读 · 0 评论 -
spark-sql 性能测试
select * from tw_stock_d where t_date='20160810' 2.08 secondsselect * from tw_stock_d where t_date='20160623'2 secondsselect * from tw_stock_d where t_date='20160810' union all sel原创 2016-10-19 03:22:37 · 845 阅读 · 0 评论