DT_Spark-CSDN博客

原创第1课：大数据最火爆语言光速入门

一． Scala开发环境搭建（略）二． Scala中的基本语法（重点） val n =10 def f1: Int = { for(i <- 1 to 20) { if (i == n) return 9 println(i) i } } 块表达式：块表达式的代码块的返回值默认为最后一行的返回值。最后一行是表达式，所以这个Result代码块的返回值为最后一行的返回值U

2016-11-02 07:28:02 482

原创第26课：Scala的核心力量和黄金定律

Scala的核心力量是什么？基于自上而下和自下而上的软件设计和编程实战的基础之上结合数据状态不可变性并融合了类型系统和隐式转换技巧的函数式编程。说明1：自上而下和自下而上编程方式的完美结合自上而下（对象）：面向对象编程，把软件系统作为一个个的对象，具体的功能由对象本身以及对象之间的消息传递来完成；自下而上（动作）：函数式编程，强调功能的具体实现；面向结果，或者面向求值的方式二者结

2016-10-28 15:59:08 347

转载第13课：Spark Streaming源码解读之Driver容错安全性

一：容错安全性 1. ReceivedBlockTracker负责管理Spark Streaming运行程序的元数据。数据层面 2. DStream和JobGenerator是作业调度的核心层面，也就是具体调度到什么程度了，从运行的考虑的。DStream是逻辑层面。 3. 作业生存层面，JobGenerator是Job调度层面，具体调度到什么程度了。从运行的角度的。谈Driver容错

2016-10-28 13:39:24 339

转载第11课：Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究

一：ReceiverTracker的架构设计 1. Driver在Executor启动Receiver方式，每个Receiver都封装成一个Task，此时一个Job中就一个Task,而Task中就一条数据，也就是Receiver数据。由此，多少个Job也就可以启动多少个Receiver. 2. ReceiverTracker在启动Receiver的时候他有ReceiverSupervisor

2016-10-28 13:19:04 326

转载第9课：Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

一：Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据，并把数据汇报给Driver端，由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动阶段，那么我们找Receiver在哪里启动就应该去找Spark Streaming的启动。

2016-10-28 13:13:18 339

转载第6课：Spark Streaming源码解读之Job动态生成和深度思考

一：Spark Streaming Job生成深度思考 1. 做大数据例如Hadoop,Spark等，如果不是流处理的话，一般会有定时任务。例如10分钟触发一次，1个小时触发一次，这就是做流处理的感觉，一切不是流处理，或者与流处理无关的数据都将是没有价值的数据，以前做批处理的时候其实也是隐形的在做流处理。 2. JobGenerator构造的时候有一个核心的参数是jobScheduler,

2016-10-28 13:08:28 397

转载第5课：基于案例一节课贯通Spark Streaming流计算框架的运行源码

一：案例实战演示： package com.dt.spark.sparkstreaming import org.apache.spark.SparkConf import org.apache.spark.sql.Row import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.types.{Inte

2016-10-28 11:43:24 464

原创第24课：关于继承和Trait进阶及Spark源码鉴赏

Scala首先是作为一门面向对象的语言，在此基础之上发展出函数式编程。 Class Any is the root of the Scala class hierarchy(Java , object). Every class in a Scala execution environment inherits directly or indirectly from the class Scal

2016-10-26 08:53:19 479

原创第22课： Scala集合和高级函数操作实战及Spark源码鉴赏

第22课： Scala集合和高级函数操作实战及Spark源码鉴赏foldRight Collect 5个元素，只赋值了前2个，但也不会报错，这是偏函数的一大特点 Map里面就是函数，对某个元素执行某个函数，再产生出一个个元素，该元素可能是空的。 X是作为函数的参数传入的，返回结果Vector是空值，是因为已经打印出了值而产生的副作用。 Map vs. flatMap

2016-10-25 06:08:24 356

DT_Spark的博客