2018年03月_beTree_fc

10月 09月 08月 07月 06月 05月 04月 03月

原创 spark源码学习（五）- SchedularBackEnd 杂谈

以spark的standalone部署方式为例，SchedularBackEnd的实现类为StandaloneSchedularBackEnd，其实例化是在TaskSchedular对象创建的时候伴随创建的，SchedularBackEnd在创建的时候，创建了StandAppClient实例，该实例在start的时候，启动了ClientEndPoint消息循环体，该循环体向master注...

2018-03-31 19:17:57 229

原创 spark源码学习（三）- TaskSchedular 提交taskset过程

背景以前一直以为task本地行，将task分配到哪一个executor上是taskschedular做的事情，知道看了DagSchedular和TaskSchedular之后才知道，DagSchedular是负责上层调度，task具体运行在那个executor上，而TaskSchedular是决定task在ececutor上是process级别的本地行还是memory级别的本地行，因为在...

2018-03-30 15:44:13 776

原创 Spark和Hadoop书籍、学习视频网站推荐

1.Spark （1）Spark快速大数据分析介绍：由spark开发者编写，无过多实现细节，注重基础理念，适合小白版可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业，还能了解从简单的批处理作业到流处理以及机器学习等应用。封皮: (2) Spark大数据商业实战三部曲：内核解密|商业案例|性能调优介绍...

2018-03-24 16:34:35 11087

原创 spark源码学习（二）- DAGSchedular 划分job,提交stage的过程

背景了解dagSchedular提交job，就需要了解什么是job,什么是stage,如果我们写了一段程序，其中调用了多个spark算子，但是我们知道，实际在计算的时候，只有在遇到action算子的时候，才会触发计算操作，而这个计算操作就是一个job，所以说一次action操作就会触发提交一个job，比如collect和first操作都会触发sparkcontext的runjob...

2018-03-24 10:20:43 651

原创 spark源码学习（一）- sparkContext 初始化过程

背景 sparkcontext为spark应用程序的入口，sparksession中也集成了sparkconext对象，sparkcontext在初始化的过程中会初始化DAGSchedular、TaskSchedular、SchedularBackend和MapOutputTrackerMaster，TaskSchedular、SchedularBackend都是接口，会根据环境的...

2018-03-20 09:20:14 814

原创 spark源码学习（四）- Executor执行task的过程

背景一个Task任务发送到一个worker上的完成运行过程源码分析过程位于Drive的CoarseGrainedSchedulerBackend会向work节点的CoarseGrainedExecutorBackend发送运行task的请求，于是位于worker的Task是从CoarseGrainedExecutorBackend的receive()方法开始的。 ...

2018-03-16 11:06:28 828

转载 kafka web页面监控KafkaOffsetMonitor

原文地址：http://blog.csdn.net/qq_20641565/article/details/72897666黑窗口的kafka集群没有监控，可以使用三方开源的监控工具，查询了些资料，网上流传最多的有三个监控工具：Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor先补一张生产数据（28个patition，不算冗余的数据一天大概200G...

2018-03-12 20:49:43 32423 3

原创 kafka rebalance ConsumerRebalanceListener的写法

背景 kafka 在有新消费者加入或者撤出时，会触发rebalance操作，在subscibe订阅主题的时候，我们可以编写回掉函数，在触发rebalance操作之前和触发成功之后，提交相应偏移量和获取拉取偏移量代码订阅主题的时候consumer.subscribe(Collections.singletonList(topic), new SaveOffsetO...

2018-03-12 16:12:10 8998 1

原创 csv、parquet、orc读写性能和方式

索引：1.背景2.存储方式3.存储效率4.读写方式5.结论6.其他格式背景最近在做一个大数据分析平台的项目，项目开发过程中使用spark来计算工作流工程中的每一个计算步骤，多个spark submit计算提交，构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件，但是csv作为毫无压缩的文本存储方式显然有些性能不够，所以想要寻找一个存储文件效率更高或者执行效率...

2018-03-11 21:51:39 7508