数据湖
文章平均质量分 93
scx_white
这个作者很懒,什么都没留下…
展开
-
关于如何在 Grafana 绘制 Apache Hudi Metrics 仪表盘的教程
对许多监控组件都支持metrics推送,如JMXDatadogPrometheus等等。具体可以进入查看。本文主要叙述下如何将接入Prometheus,开发人员通过对监控指标的观察能够预判可能出现的问题,从而对潜在的不确定因素进行优化,使我们的数据湖任务运行更加健康。原创 2023-02-20 11:14:26 · 733 阅读 · 1 评论 -
基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设
无论是在lamda架构还是kappa架构中,实时计算通常是使用flink+mq来实现的,而在这些场景中涉及到多张表join时,一般我们的使用方法是多张流表join,或者流表维表的方式join。但无论是那种方式都会存在一些问题,比如窗口开的过小,数据晚到导致数据丢失。窗口开的过大,内存占用过高,成本高,有被打爆的风险。上篇文章介绍了我们使用做的近实时数仓架构,在这里主要讲下在近实时数仓建设时遇到多表join怎么以宽表部分列更新的方式解决离线数仓高延迟join。原创 2023-01-10 16:17:17 · 2676 阅读 · 4 评论 -
基于 Apache Hudi 和 Apache Spark Sql 的近实时数仓架构分享
在大数据的计算场景中,根据数据的延迟情况,数据的时效性一般分为离线、准实时、实时。离线计算一般是以天(T)为界限,比如离线场景最多的就是T-1计算,也就是今天计算昨天产生的数据。准实时计算一般以小时(H)为界限,比如H-1的计算,即当前小时处理上个小时的数据,当然某些业务场景下也有(0.5H-1)计算的存在。而实时计算一般是以秒为界限,即数据的延迟最大粒度为秒级。对于离线和准实时计算,我们可以在调度系统中通过不同的调度周期实现,而实时计算通常需要一个常驻的任务来进行。原创 2022-11-04 10:16:47 · 1068 阅读 · 0 评论 -
【Apache Hudi】一种基于增量日志文件数的压缩策略
Hudi 提供了一种新的表类型:MOR 表。该表在每次的 upsert 操作时,并不会实时的和基础数据文件进行合并,而是生成新的增量日志文件,而增量文件和基础文件的合并就叫做压缩(compaction)。所以当一个读操作读取 MOR 表时,此时会读取该表的基础数据文件和所有的增量日志文件,然后进行一个合并操作(比如根据主键聚合取更新时间最新的那条数据),最后将合并后的结果返回给终端。原创 2022-09-21 17:19:32 · 908 阅读 · 0 评论 -
Apache Hudi 数据湖概述
前言介绍本文之前,先给大家说一些简单的大数据概念。在大数据体系中,我们常用的存储是 HDFS(Hadoop Distributed File System),常用的计算是 map-reduce、spark、flink。对于 HDFS(Hadoop Distributed File System),是一个分布式的文件系统,数据平台的所有数据都存储在里面,最佳的使用实践是:一次写入,多次读取。所以大数据的计算基本上都是批处理计算(对有界的、确定数据范围的数据进行计算,不具备实时性),也就是 T-1 的计算,T原创 2022-04-02 11:15:15 · 2964 阅读 · 0 评论