自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

一:Receiver启动的方式设想1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job。2. Receiver属于Spark Streaming应用程序启动阶段,那么我们找Receiver在哪里启动就应该去找Spark Streaming的启动。...

2016-06-30 22:34:00 89

转载 Spark IMF传奇行动第22课:RDD的依赖关系彻底解密

版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS昨晚听了王家林老师的Spark IMF传奇行动第22课:RDD的依赖关系彻底解密,笔记如下:1,窄依赖是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map、filter、union等都会产生窄依赖;2宽依赖是指一个父RDD的Partition会被多个子RDD...

2016-01-30 11:51:00 55

转载 Spark IMF传奇行动第21课:从Spark架构中透视Job

版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS昨晚听了王家林老师的Spark IMF传奇行动第21课:从Spark架构中透视Job,笔记如下:默认一个worker有一个executor,也可以设置多个,当cpu利用不足时。并行度也是被继承的当Spark集群启动的时候,首先启动Master进程负责整个集群资源管理和分配并接受作业的提交且为作业分...

2016-01-28 23:29:00 62

转载 Spark IMF传奇行动第20课:top N总结

版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS今晚听了王家林老师的Spark IMF传奇行动第20课:top N,作业是:scala写topGroup,且对组名key排序代码如下:def main(args: Array[String]){ val conf = new SparkConf() //创建SparkConf对象 ...

2016-01-26 00:07:00 53

转载 Spark IMF传奇行动第19课:spark排序总结

今晚听了王家林老师的Spark IMF传奇行动第19课:spark排序,作业是:1、scala 实现二次排序,使用object apply 2;自己阅读RangePartitioner代码如下:/** * Created by 王家林 on 2016/1/10. */object SecondarySortApp { def main(args: Arra...

2016-01-24 22:59:00 41

转载 Spark IMF传奇行动第18课:RDD持久化、广播、累加器总结

昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at para...

2016-01-24 11:49:00 60

转载 Spark IMF传奇行动第17课Transformations实战总结

今晚听了王家林老师的Spark IMF传奇行动第17课Transformations实战,作业是用SCALA写cogroup:def main(args: Array[String]): Unit = { val sc = sparkContext("Transformations") cogroupTrans(sc) sc.stop() ...

2016-01-23 01:08:00 49

转载 Spark IMF传奇行动第16课RDD实战总结

今晚听了王家林老师的Spark IMF传奇行动第16课RDD实战,课堂笔记如下:RDD操作类型:Transformation、Action、Contollerreduce要符合交换律和结合律val textLines = lineCount.reduceByKey(_+_,1)textLines.collect.foreach(pair=> println(pa...

2016-01-21 00:33:00 42

转载 Spark3000门徒第15课RDD创建内幕彻底解密总结

今晚听了王家林老师的第15课RDD创建内幕彻底解密,课堂笔记如下:Spark driver中第一个RDD:代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法:1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;3,使用HDFS创建RDD 4,基于DB创建RDD5,基于NoSQL,例如HBas...

2016-01-18 23:16:00 52

转载 Spark3000门徒第14课spark RDD解密总结

今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,RDD可以看做一个只读的List或者Array。产生的中间结果怎么办? 不能让 ...

2016-01-17 23:44:00 62

转载 Spark3000门徒第13课Spark内核架构解密总结

昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里executor是多点好还是少点好,看具 体情况。Worker:管理当前Nod...

2016-01-17 14:41:00 117

转载 Spark3000门徒第12课Spark HA实战总结

今晚听了王家林老师的第12课Spark HA实战,课堂笔记以及作业如下:Spark HA需要安装zookeeper,推荐稳定版3.4.6.1.下载zookeeper3.4.6,2.配置环境变量3.创建data logs4.vi conf/zoo.cfg5 data目录中创建myidspark-env.sh 配置HA :export SPARK_DAEMON_JAVA_O...

2016-01-16 00:43:00 75

转载 Spark3000门徒第11课彻底解密WordCount运行原理总结

今晚听了王家林老师的第11课:彻底解密WordCount运行原理,课堂笔记以及作业如下:在第一个Stage中,def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStoppe...

2016-01-13 23:40:00 122

转载 Spark3000门徒第10课Java开发Spark实战总结

今晚听了王家林老师的第10课Java开发Spark实战,课后作业是:用Java方式采用Maven开发Spark的WordCount并运行在集群中先配置pom.xml <groupId>com.dt.spark</groupId> <artifactId>SparkApps</artifactId> <version>...

2016-01-12 00:17:00 123

转载 Spark3000门徒第9课IDEA中开发Spark实战总结

今晚听了王家林老师的第9课IDEA中开发Spark实战,课后作业是:在Idea中编写广告点击排名的程序并提交集群测试,IDEA社区版本就够用,Ultimate没必要还要钱程序如下:object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象Spar...

2016-01-10 22:38:00 77

转载 Spark3000门徒第8课IDE中开发Spark实战总结

今晚听了王家林老师的第8课IDE中开发Spark实战,课后作业是:在Eclipse中编写广告点击排名的程序并测试,程序如下:object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象SparkConf,设置Spark程序的运行时的配置信息 *...

2016-01-10 02:02:00 84

转载 Spark3000门徒第七课Spark运行原理及RDD解密总结

今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下:1spark是分布式 基于内存 特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法。3spark不能取代hive,hive做数据仓库存储,spark sql只是取代hive的...

2016-01-09 00:36:00 124

转载 Spark3000门徒第六课精通Spark集群搭建总结

今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下:1 硬件环境:至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法。上网方式:Nat,root权限登录,避免权限问题2.软件环境:RedHat 6.4 spark 1.6.0 hadoop 2...

2016-01-06 22:24:00 116

转载 Spark3000门徒第五课scala隐式转换和并发编程总结

今晚听了王家林老师的Spark 3000门徒系列第五课scala隐式转换和并发编程,课后作业是:分析DAGScheduler Master Worker RDD源码中隐式转换和Actor并发编程,我的见解如下:隐式函数,隐式参数最常见,隐式对象和隐式类少见RDD中方法:def distinct(numPartitions: Int)(implicit ord: Orderin...

2016-01-05 23:21:00 96

转载 Spark 3000门徒第四课scala模式匹配和类型参数总结

今晚听了王家林老师的Spark 3000门徒系列第四课scala模式匹配和类型参数,总结如下:模式匹配:def data(array:Array[String]){ array match{ case Array(a,b,c) => println(a+b+c) case Array("spark",_*) => //匹配以spark为第一元素的数组 ca...

2016-01-05 00:25:00 77

转载 Spark 3000门徒第三课scala高阶函数总结

今晚听了王家林老师3000门徒spark系列课程的第三课,讲述了scala函数,下面写一下心得:普通函数:def fun1(name:String){println(name)}函数赋值给变量:val fun1 = functionName _匿名函数:val fun2 = (name:String) => prinln(name)高阶函数:def bigData(...

2016-01-04 00:17:00 94

转载 Spark 3000门徒第二课scala面向对象总结

昨晚听了王家林老师3000门徒spark系列课程的第二课,讲述了scala面向对象知识,并且带着过了一遍Spark核心类:SparkContent,RDD的代码,下面写一下心得:RDD是抽象类,实现了Serializable和Logging接口,有很多类继承了RDD类来实现不同功能的RDD。SparkContent默认构造器传入config:SparkConf 实现了Loggi...

2016-01-03 16:05:00 65

转载 Spark 3000门徒第一课随笔

昨晚听了王家林老师的Spark3000门徒系列课程的第一课,把scala基础过了一遍,对ArrayBuffer有了新的认识:Array本身创建后不可修改ArrayBuffer可修改import scala.collection.mutable.ArrayBufferval arrB = ArrayBuffer[int]()arrB += 10arrB += (11,12,13,5)...

2016-01-02 12:37:00 96

转载 spark视频课程下载链接

王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程, 目前已经发布的王家林免费视频全集如下:1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq2,《H...

2015-11-10 15:58:00 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除