自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (6)
  • 收藏
  • 关注

原创 spark源码学习(五)- SchedularBackEnd 杂谈

     以spark的standalone部署方式为例,SchedularBackEnd的实现类为StandaloneSchedularBackEnd,其实例化是在TaskSchedular对象创建的时候伴随创建的,SchedularBackEnd在创建的时候,创建了StandAppClient实例,该实例在start的时候,启动了ClientEndPoint消息循环体,该循环体向master注...

2018-03-31 19:17:57 229

原创 spark源码学习(三)- TaskSchedular 提交taskset过程

背景     以前一直以为task本地行,将task分配到哪一个executor上是taskschedular做的事情,知道看了DagSchedular和TaskSchedular之后才知道,DagSchedular是负责上层调度,task具体运行在那个executor上,而TaskSchedular是决定task在ececutor上是process级别的本地行还是memory级别的本地行,因为在...

2018-03-30 15:44:13 776

原创 Spark和Hadoop书籍、学习视频网站推荐

1.Spark   (1)Spark快速大数据分析         介绍:由spark开发者编写,无过多实现细节,注重基础理念,适合小白版可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。         封皮:     (2)  Spark大数据商业实战三部曲:内核解密|商业案例|性能调优          介绍...

2018-03-24 16:34:35 11087

原创 spark源码学习(二)- DAGSchedular 划分job,提交stage的过程

背景         了解dagSchedular提交job,就需要了解什么是job,什么是stage,如果我们写了一段程序,其中调用了多个spark算子,但是我们知道,实际在计算的时候,只有在遇到action算子的时候,才会触发计算操作,而这个计算操作就是一个job,所以说一次action操作就会触发提交一个job,比如collect和first操作都会触发sparkcontext的runjob...

2018-03-24 10:20:43 651

原创 spark源码学习(一)- sparkContext 初始化过程

背景         sparkcontext为spark应用程序的入口,sparksession中也集成了sparkconext对象,sparkcontext在初始化的过程中会初始化DAGSchedular、TaskSchedular、SchedularBackend和MapOutputTrackerMaster,TaskSchedular、SchedularBackend都是接口,会根据环境的...

2018-03-20 09:20:14 814

原创 spark源码学习(四)- Executor执行task的过程

背景       一个Task任务发送到一个worker上的完成运行过程源码分析过程          位于Drive的CoarseGrainedSchedulerBackend会向work节点的CoarseGrainedExecutorBackend发送运行task的请求,于是位于worker的Task是从CoarseGrainedExecutorBackend的receive()方法开始的。 ...

2018-03-16 11:06:28 828

转载 kafka web页面监控KafkaOffsetMonitor

原文地址:http://blog.csdn.net/qq_20641565/article/details/72897666黑窗口的kafka集群没有监控,可以使用三方开源的监控工具,查询了些资料,网上流传最多的有三个监控工具:Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor先补一张生产数据(28个patition,不算冗余的数据 一天大概200G...

2018-03-12 20:49:43 32423 3

原创 kafka rebalance ConsumerRebalanceListener的写法

背景          kafka 在有新消费者加入或者撤出时,会触发rebalance操作,在subscibe订阅主题的时候,我们可以编写回掉函数,在触发rebalance操作之前和触发成功之后,提交相应偏移量和获取拉取偏移量代码         订阅主题的时候consumer.subscribe(Collections.singletonList(topic), new SaveOffsetO...

2018-03-12 16:12:10 8998 1

原创 csv、parquet、orc读写性能和方式

索引:1.背景2.存储方式3.存储效率4.读写方式5.结论6.其他格式背景     最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率...

2018-03-11 21:51:39 7508

Spark-2-4-PDF

spark2.4官方介绍PPT,PDF版本,没有大的变化,sql api增加和新的调度模型

2018-09-21

手机基站数据Demo

手机基站数据,用于练习spark 实践,已经测试过,手机基站数据,用于练习spark 实践,已经测试过

2018-05-20

spark - 小实践(2)-- 模拟数据

spark - 小实践(2)dataset实战测试数据 people.json peopleScore.json

2018-04-11

小实践3-测试数据 - 用户行为数据-user.json/log.json

user.json log.json userparquet.parquet logparquet.parquet

2018-04-11

spring-jdbc-2.5.6.jar

可用,本人亲测,应该不会出现确实什么东西的现象

2015-05-02

commons-dbcp-1.2

本人亲测可用,如果,在开发过程中遇到了什么问题,可以联系我

2015-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除