自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Spark-Sql源码简单走读

自从Spark统一了RDD和DataFrame(DataSet)后,批处理上对DataFrame的使用频率上也大大超过了原始RDD,同样的SparkSql的使用也越来越频繁,因此对其中的执行过程进行简单了解是必不可少的,本文就对SparkSql源码进行简单的流程走读,涉及复杂内容的地方做到知其作用目的即可,不予深究。

2019-07-06 15:06:18 386

原创 HBase数据库热点问题之基础解决方案(数据倾斜)

在设计HBase数据库时,第一个要面临的问题就是如何避免发生数据倾斜,导致热点问题。此数据倾斜和前面Spark性能调优中的数据倾斜,在其产生原因和处理方向上均有所不同,文本简要的列出一些基本的处理方案,作为记录。

2019-06-23 18:33:14 1355 1

原创 Spark性能调优四个方向的基础策略

在Spark的使用中,无论是直接以HDFS为数据源,或是以HBase类数据仓库为承载源,除去业务逻辑方面的增删改查及数据过滤,最终难免面临性能调优的环节。而事实上Spark的性能调优是由很多部分组成的,需要根据业务场景及数据情况,对各个环节进行多个方面的调节和优化,以期获得最佳的运行性能。

2019-05-10 18:02:08 503

原创 Spark-Core源码学习记录 5 Task的启动及回顾总结

该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。

2019-04-28 20:00:15 183

原创 Spark-Core源码学习记录 4 Stage划分以及Task本地性计算与分发

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。前面篇章中,我们完成了Master与Worker的注册启动,Driver和Executor的注册启动,Application的注册与启动。初始化了SparkContext、Sc...

2019-04-23 20:08:18 624

原创 Spark-Core源码学习记录 3 SparkContext、SchedulerBackend、TaskScheduler初始化及应用的注册流程

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。从本篇文章开始,进入到Spark核心的部分,我们将依次展开。SparkContext 基石SparkContext在整个Spark运行期间都起着重要的作用,并在其中完成了许...

2019-04-16 20:20:55 323

原创 Spark-Core源码学习记录 2 应用提交Submit 及Driver注册流程,以JavaWordCount为例

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。本文是参考:Apache Spark 源码...

2019-04-12 17:36:01 269

原创 Spark-Core源码学习记录 1.2 schedule()方法的调度内容

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。本文是对Worker注册过程的补充,在这里Spark-Core源码学习记录 1提及,在Worker向Master注册完成后,Master会调用schedule方法进行资源调度,...

2019-04-09 18:53:30 208

原创 Spark-Core源码学习记录 1.Master与Worker的启动注册及相互调用

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。本文承接上文,我们分别进入org.apache.spark.deploy.master.Master和org.apache.spark.deploy.worker.Worker...

2019-04-07 15:26:41 212

原创 Spark-Core源码学习记录 1.1 负责通信的三个抽象RpcEnv、RpcEndpoint与RpcEndpointRef

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。本文为RpcEnv、RpcEndpoint、RpcEndpointRef相关内容的介绍,此为阅读后续源码的基础。自Spark 2.1.0之后的底层实现只有Netty,移除了A...

2019-04-04 18:48:42 373

原创 Spark-Core源码学习记录 0.集群的启动脚本及launcher.Main作用

Spark-Core源码学习记录该系列作为Spark源码回顾学习的记录,旨在捋清Spark分发程序运行的机制和流程,对部分关键源码进行追踪,争取做到知其所以然,对枝节部分源码仅进行文字说明,不深入下钻,避免混淆主干内容。本文为Spark源码系列的开篇,主要内容包括对集群启动相关脚本的流程分析。Spark配置文件...

2019-04-03 09:12:39 263

原创 容易忽略的expect脚本问题,暗藏的僵尸进程,wait命令不要漏掉

问题描述前几天有个小需求,用到expect脚本去循环的发送一些数据,主要问题代码如下:#! /usr/bin/expectwhile {true} { set timeout 60 spawn telnet ip port expect "]'."; send "***********一些数据***********\r" expect "*********一些回复*********...

2018-12-14 11:14:57 1748

原创 log4j与logback包冲突原因及解决,不可忽视的Warning

场景一个简单的spring-boot程序,

2018-11-07 20:23:55 24485 2

原创 Spring Boot与Mybatis 借助Fastjson快速完成数据解析入库

通过Spring Boot可以快速搭建一个项目结构,在此基础上本文就通过一个简单的例子,说明如何结合Mybatis 和 Fastjson,快速的完成一个数据的入库基本操作。添加相关的依赖<dependency> <groupId>org.mybatis.spring.boot</groupId> <artifactId>mybatis-s...

2018-10-11 21:27:38 1429 2

原创 离线服务器下docker的部署与应用

一分钟内形成docker的模糊概念网上很多文章避免将docker与虚拟机混为一谈,但对于初学者来说,完全可以将docker当做一种虚拟机技术,只需要牢牢记住一点最重要的区别:docker依赖于物理机的内核,所以在linux下“生成的docker”,一般不能直接在windows下运行。(虚拟机是完完全全模拟了一台物理机,这是一个很大的区别)。 当你有了这样的一个模糊概念,接下来只需要快速了解d...

2018-06-02 17:21:29 8076

原创 Java后台程序与Js脚本联合,简单架构的灵活性

工作后接触的很多东西都是在学校听过却没有用过的,考虑到防止以后学东忘西,还是决定将一部分通用的技术或理念或心得记录下来,就当作学习笔记。

2018-05-10 09:36:01 394

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除