大数据
文章平均质量分 83
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
iflink.guojl
让天下没有难学的技术
展开
-
大数据任务调度之Azkaban
目录一、适用场景二、架构2.1 元数据2.2 AzkabanWebServer2.3 AzkabanExecutorServer三、作业流执行过程四、Azkaban架构的三种运行模式五、使用5.1 创建项目5.2 上传项目5.3 工作流视图5.4 项目权限5.5 执行流程视图5.5.1 失败通知5.5.2 电子邮件覆盖5.5.3 故障选项5.5.4 并发选项5.5.5 工作流选项5.6 执行5.7 执行页面5.8 历史页5.9 计划流程5.10 SLA5.11 任务页面5.12 任务编辑5.13 工作历史6原创 2022-01-11 06:25:02 · 2573 阅读 · 0 评论 -
Flink难点解析:揭开Watermark的神秘面纱
目录一、时间1.1 时间语义1.1.1 Event Time1.1.2 Ingestion Time1.1.3 Processing Time1.2 设置时间语义二、Watermark2.1 Watermark是什么?2.2 如何计算Watermark?2.3 何时出发窗口计算?2.4 原理2.4.1 窗口计算问题2.4.2 水印窗口2.5 Watermark设定策略2.5.1 AssignerWithPunctuatedWatermarks2.5.2 AssignerWithPeriodicWaterma原创 2022-01-11 06:24:53 · 1653 阅读 · 0 评论 -
Yarn DRF资源分配算法
目录一、DRF计算方式二、DRF伪代码三、算法分配案例四、Yarn源码DRF是一种通用的多资源最大最小公平分配策略(Max-Min Fairness Strategy),其核心思想是在多环境下一个用户的资源分配应该由用户的主导份额的资源决定。主导份额的资源是在所有已经分配给用户的多种资源中,占据最大份额的一种资源。简而言之,DRF试图最大化所有用户中最小的主导份额。一、DRF计算方式假设:系统资源CPU和Memory分别为9 Core和18GB,应用A每个计算任务请求资源为<1 CPU,4GB&原创 2022-01-10 06:54:50 · 2202 阅读 · 0 评论 -
Hive专题-distinct优化
目录一、问题描述二、分治优化一三、分治优化二一、问题描述在hive中count(distinct)很容易造成数据倾斜。但有时,“数据倾斜”又几乎是必然的。我们来举个栗子:假设表sdk_session_details中记录了访问网站客户端会话信息,即:如果用户打开App客户端,则会产生一条会话信息记录在该表中,该表的粒度为“一次”会话,其中每次会话都记录了用户的唯一标示uuid,uuid是一个很长的字符串,假定其长度为64位。现在的需求是:每天统计当月的活用用户数——“月活跃用户数”(当月访问过app就原创 2022-01-10 06:54:43 · 1754 阅读 · 0 评论 -
Kafka读写机制深度剖析
目录01. 概述02. Kafka架构2.1 Topic & partition03. 高可靠性分析3.1. Kafka文件存储机制3.2 复制原理和同步方式3.3 ISR3.4 数据可靠性和持久性保证3.5 关于HW的进一步探讨3.6 Leader选举3.7 Kafka的发送模式04. 高可靠性使用分析4.1 消息传输保障4.2 消息去重4.3 高可靠性配置05. BenchMark5.1 测试环境5.2 不同场景测试Kafka 起初是由 LinkedIn 公司开发的一个分布式的消息系统,后成为原创 2022-01-10 06:54:33 · 1887 阅读 · 0 评论 -
ZAB选举算法
ZAB选举算法01. 什么是Zab协议?01. ZAB协议三阶段02. 服务器状态03. 集群链接建立过程04. Leader选举的触发时机05. 影响成为Leader的因素06. Leader选举的过程07. 广播01. 什么是Zab协议?Zab协议的全称是 Zookeeper Atomic Broadcast (Zookeeper原子广播)。Zookeeper 是通过Zab协议来保证分布式事务的最终一致性。Zab协议是为分布式协调服务Zookeeper专门设计的一种支持崩溃恢复的原子广播协议原创 2022-01-10 06:53:12 · 2396 阅读 · 0 评论 -
Spark原理与实战
目录1.0 spark原理架构1.1 driver1.2 cluster manager1.3 DAG1.4 RDD依赖关系2.0 spark summary2.1 架构图2.2 项目3.0 spark kafka1.0 spark原理架构1.1 driver1.2 cluster manager1.3 DAG1.4 RDD依赖关系2.0 spark summary2.1 架构图2.2 项目spark-summary3.0 spark kafkaspark kafka.原创 2022-01-09 00:22:29 · 2930 阅读 · 0 评论