![](https://img-blog.csdnimg.cn/20201216090327453.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据湖
剖析大数据下一站 数据湖 的使用和实战
KK架构
天道酬勤
展开
-
增量计算(生产)与数据湖核心原理
一、如何定义增量计算有一家国外的网站这样定义了实时计算,增量计算,离线计算我们以交通工具举个例子,来类比三种计算:离线计算,就好比火车(绿皮车),每天发一次,每次能拉 1000 多人,延迟非常大,但每次能处理非常多的数据;实时计算,就好比小汽车(私家车),每次拉的人不多,但满足时效性,想走就能走,但成本相对比较大;增量计算,就好比是高铁(地铁或公交车),10 分钟来一趟,想来不一定能来,想走得去公交车站等车,但一趟车也能拉很多人。二、增量计算的架构图增量计算的增量体现在哪?首先数原创 2020-12-21 09:49:27 · 1793 阅读 · 1 评论 -
Flink + Iceberg 的数仓增量生产 ETL 以及在美团的落地实践
一、美团数仓架构图如上图,是美团最新的数仓架构图。整个架构图分为三层,从下往上看,最下面一层是数据安全,包括受限域认证系统、加工层权限系统,应用层权限系统,安全审计系统,来保证最上层数据集成与处理的安全;中间一层是统一的元数据中心和全链路血缘,覆盖了全链路的加工过程;最上层根据数据的流向,分成数据集成,数据处理,数据消费,数据应用,四个阶段;在数据集成阶段,对于不同的数据来源(包括用户行为数据,日志数据,DB 数据,文件数据),都有相对应的数据集成系统,把数据收集到统一的存储之中,包括 Kafk原创 2020-12-21 09:44:31 · 1643 阅读 · 0 评论 -
大数据下一站 数据湖 Hudi Iceberg DeltaLake 初探
一、数据湖的角色和定位随着移动互联网,物联网技术的发展,数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展,即 BI 到 AI 的转变。数据的使用者也从传统的业务分析人员转为数据科学家,算法工程师。此外对数据的实时性要求越来越高,也出现了越来越多的非结构化的数据。目前的数据仓库技术出现了一定的局限性,比如单一不变的 schema 和模型已经无法满足各类不同场景和领域的数据分析的要求,并且数据科学家更愿意自己去处理原始的数据,而不是直接使用被处理过的数据。比如对于数据缺失这种情况,数据原创 2020-12-16 09:05:04 · 3203 阅读 · 0 评论