![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
大数据相关技术栈
凯哥多帅哦
当编程成为一种习惯
展开
-
spark原理之一张图搞定shuffle原理
如下:https://www.processon.com/view/link/60127d50079129652cdd3570原创 2021-02-01 16:27:24 · 182 阅读 · 0 评论 -
spark原理之一张图搞定算子执行原理
目录一、案例:从最简单的wordCount说起二、执行流程图三、总结四、附录:常见算子源码分析表一、案例:从最简单的wordcount说起一般来说我们见到的第一个spark程序,也就是传说中的wordcount,如下所示val textFileRDD = sc.textFile("hdfs://xxxx")textFileRDD.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreac..原创 2021-01-27 20:34:12 · 270 阅读 · 0 评论 -
spark原理之一张图搞定spark-submit提交流程
如下:https://www.processon.com/diagraming/5fd80fdc63768906e6ddf8b8原创 2021-01-24 20:48:33 · 292 阅读 · 2 评论 -
spark原理之一张图搞定ContextCleaner
如下:https://www.processon.com/view/link/6007a4e31e08534bec2adf7e原创 2021-01-20 11:41:43 · 124 阅读 · 0 评论 -
spark原理之一张图搞定accumulator
如下:https://www.processon.com/view/link/6006922cf346fb566ebb6807原创 2021-01-19 16:09:29 · 184 阅读 · 0 评论 -
spark原理之一张图搞定broadcast
如下:https://www.processon.com/diagraming/6004f1e0f346fb566eb6a4ca原创 2021-01-18 17:25:17 · 169 阅读 · 0 评论 -
datax(八)源码阅读之reader、writer协作机制
目录一、前言二、核心源码解读①writer线程②reader线程③源码流程图三、总结一、前言我们都知道我们在使用datax完成一个异构数据源的同步任务的时候,比如从mysql读取一张表写入到hdfs,我们只需要配置一个json文件进行reader和writer的配置,然后执行datax,他就会不断的从reader处拉取数据写入到writer,这个过程是持续进行的,直到所需要的数据都读取且写入完毕,才算完成任务,那么这个过程中reader和writer是怎么协作的呢,我们下面慢原创 2021-01-03 18:32:26 · 2920 阅读 · 0 评论 -
datax(六)源码阅读之外部插件加载机制(reader、writer)
目录一、插件使用方法二、插件机制原理三、源码走读四、QA一、插件使用方法众所周知,datax通过插件机制,动态的在运行时载入reader和writer进行数据同步的执行。站在用户侧,用户只需要做下列步骤就可以实现插件执行1、按datax的约定实现自己的插件,并放在${DATAX_HOME}/plugin/reader/或者${DATAX_HOME}/plugin/writer/目录下,以mysqlreader为例jar包就是用户实现的mysqlreader插件,lib原创 2021-01-02 21:34:03 · 1922 阅读 · 1 评论 -
datax(七)源码阅读之运行时监控MXBean
目录一、JMX前置知识二、datax的运行时监控三、运行时常用的MXBean大全一、JMX前置知识官方文档:https://docs.oracle.com/javase/tutorial/jmx/index.html网上比较不错的文章:http://www.tianshouzhi.com/api/tutorials/jmx/28简单的说就是,JMX可以通过MBean的注册来实现运行时监控,而MXBean是一种可以支持复杂变量类型的MBean,具体的细节大家可以参考下上面两篇.原创 2021-01-02 16:49:21 · 1024 阅读 · 0 评论 -
datax(四)源码阅读之一张图搞定datax执行流程(附带各种说明)
执行流程图如下,还在持续补充更新:https://www.processon.com/view/link/5fe81e2363768932a287d1fc原创 2020-12-28 14:53:02 · 640 阅读 · 0 评论 -
datax(三)源码阅读之脚本入口datax.py
目录一、整体流程二、获取参数解析器解析参数流程三、构建启动命令流程一、整体流程我们线上使用datax,一般会通过执行datax.py进行datax任务的启动,比如执行如下命令:python datax.py datax.json我们聚焦到datax.py的main方法:if __name__ == "__main__": printCopyright() // 1.打印版权信息 parser = getOptionParser() // 2.获取.原创 2020-11-08 21:57:00 · 2266 阅读 · 0 评论 -
datax(二)datax on azkaban架构设计之datax as a service
一、背景上篇文章说道,datax目前版本只支持单机模式,单机性能容易出现瓶颈,因此在线上使用datax做数据同步的时候,配合调度系统进行使用是个普遍的选择,这里我们选用的是azkaban作为调度系统进行设计,对datax进行封装提供服务。二、功能说明1、支持datax的服务调用,包括同步任务的执行、停止。2、支持分数据源类型 / 输出数据源类型 / 租户名称 /同步名称 /运行状态 / 创建者的同步任务列表分页查询。3、支持同步任务的状态查询,包括成功任务的指标查询;运行...原创 2020-11-03 22:10:05 · 1450 阅读 · 3 评论 -
datax(一)alibaba datax简介
github:https://github.com/alibaba/DataX目录一、datax简介1.1 原理简介1.1.1 概览1.1.2 框架设计1.1.3 核心架构1.2 特点1.3 使用场景二、data使用方式、注意点2.1 基本使用2.2 数据预处理2.2.1 transformer例子2.2.2 已有trasformer列表2.2.3扩展transformer方法2.3流控、并发调整2.3.1 流控、并发配置项2.3...原创 2020-11-03 00:09:51 · 5581 阅读 · 6 评论 -
spark中num-executors,executor-cores,executor-memory调参的艺术
在跑Spark-On-Yarn程序的时候,往往会对几个参数(num-executors,executor-cores,executor-memory等)理解很模糊,从而凭感觉地去指定值,这是不符合有追求程序员信仰的。因此,搞懂它们,很有必要。本文翻译自https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html。译文如下:是否曾经想要知道如何转载 2020-10-26 23:18:42 · 4483 阅读 · 0 评论 -
《Hbase原理与实践》读书笔记——2.基础数据结构与算法
2.1 总体介绍HBase的一个列簇(Column Family)本质上就是一棵LSM树(Log-StructuredMerge-Tree)。LSM树分为内存部分和磁盘部分。内存部分是一个维护有序数据集合的数据结构。一般来讲,内存数据结构可以选择平衡二叉树、红黑树、跳跃表(SkipList)等维护有序集的数据结构,这里由于考虑并发性能,HBase选择了表现更优秀的跳跃表。磁盘部分是由一个个独立的文件组成,每一个文件又是由一个个数据块组成。对于数据存储在磁盘上的数据库系统来说,磁盘寻道以及数据读取都是非原创 2020-10-22 23:59:24 · 374 阅读 · 2 评论 -
《Hbase原理与实践》读书笔记——1.HBase概述
1.1 HBase前世今生Google当年风靡一时的“三篇论文”:GFS -> HDFS , Mapreduce -> hadoop mapreduce , bigTable -> HBase。HBase在国外起步很早,包括Facebook、Yahoo、Pinterest等大公司都大规模使用HBase作为基础服务。在国内HBase相对起步较晚,但现在各大公司对于HBase的使用已经越来越普遍,包括阿里巴巴、小米、华为、网易、京东、滴滴、中国电信、中国人寿等公司都使用HBase存储海原创 2020-10-21 17:01:36 · 483 阅读 · 0 评论 -
Flink on yarn实践中踩过的一些坑
Flink on yarn实践中踩过的一些坑背景最近公司项目在做实时计算相关,也是使用了flink做实时计算的引擎,是以flink on yarn的方式进行任务的调度,过程中也踩了一些坑,没有完整记录下来,就记录一些自己印象比较深刻的问题或者坑,希望对大家也有所帮助,问题如下:1、jar包集群lib中管理? or maven打fat jar?2、运行直接报错 Caused by: org.apache.flink.table.api.NoMatchingTableFactoryException:原创 2020-09-30 15:13:00 · 2835 阅读 · 0 评论