- 博客(9)
- 资源 (6)
- 收藏
- 关注
原创 spark源码学习(五)- SchedularBackEnd 杂谈
以spark的standalone部署方式为例,SchedularBackEnd的实现类为StandaloneSchedularBackEnd,其实例化是在TaskSchedular对象创建的时候伴随创建的,SchedularBackEnd在创建的时候,创建了StandAppClient实例,该实例在start的时候,启动了ClientEndPoint消息循环体,该循环体向master注...
2018-03-31 19:17:57
229
原创 spark源码学习(三)- TaskSchedular 提交taskset过程
背景 以前一直以为task本地行,将task分配到哪一个executor上是taskschedular做的事情,知道看了DagSchedular和TaskSchedular之后才知道,DagSchedular是负责上层调度,task具体运行在那个executor上,而TaskSchedular是决定task在ececutor上是process级别的本地行还是memory级别的本地行,因为在...
2018-03-30 15:44:13
776
原创 Spark和Hadoop书籍、学习视频网站推荐
1.Spark (1)Spark快速大数据分析 介绍:由spark开发者编写,无过多实现细节,注重基础理念,适合小白版可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。 封皮: (2) Spark大数据商业实战三部曲:内核解密|商业案例|性能调优 介绍...
2018-03-24 16:34:35
11087
原创 spark源码学习(二)- DAGSchedular 划分job,提交stage的过程
背景 了解dagSchedular提交job,就需要了解什么是job,什么是stage,如果我们写了一段程序,其中调用了多个spark算子,但是我们知道,实际在计算的时候,只有在遇到action算子的时候,才会触发计算操作,而这个计算操作就是一个job,所以说一次action操作就会触发提交一个job,比如collect和first操作都会触发sparkcontext的runjob...
2018-03-24 10:20:43
651
原创 spark源码学习(一)- sparkContext 初始化过程
背景 sparkcontext为spark应用程序的入口,sparksession中也集成了sparkconext对象,sparkcontext在初始化的过程中会初始化DAGSchedular、TaskSchedular、SchedularBackend和MapOutputTrackerMaster,TaskSchedular、SchedularBackend都是接口,会根据环境的...
2018-03-20 09:20:14
814
原创 spark源码学习(四)- Executor执行task的过程
背景 一个Task任务发送到一个worker上的完成运行过程源码分析过程 位于Drive的CoarseGrainedSchedulerBackend会向work节点的CoarseGrainedExecutorBackend发送运行task的请求,于是位于worker的Task是从CoarseGrainedExecutorBackend的receive()方法开始的。 ...
2018-03-16 11:06:28
828
转载 kafka web页面监控KafkaOffsetMonitor
原文地址:http://blog.csdn.net/qq_20641565/article/details/72897666黑窗口的kafka集群没有监控,可以使用三方开源的监控工具,查询了些资料,网上流传最多的有三个监控工具:Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor先补一张生产数据(28个patition,不算冗余的数据 一天大概200G...
2018-03-12 20:49:43
32423
3
原创 kafka rebalance ConsumerRebalanceListener的写法
背景 kafka 在有新消费者加入或者撤出时,会触发rebalance操作,在subscibe订阅主题的时候,我们可以编写回掉函数,在触发rebalance操作之前和触发成功之后,提交相应偏移量和获取拉取偏移量代码 订阅主题的时候consumer.subscribe(Collections.singletonList(topic), new SaveOffsetO...
2018-03-12 16:12:10
8998
1
原创 csv、parquet、orc读写性能和方式
索引:1.背景2.存储方式3.存储效率4.读写方式5.结论6.其他格式背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率...
2018-03-11 21:51:39
7508
小实践3-测试数据 - 用户行为数据-user.json/log.json
2018-04-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人