数据湖Hudi/Iceberg/Delta
文章平均质量分 83
数据湖技术Hudi/Iceberg/Delta
大数据技术架构
Focus on Lakehouse
展开
-
数据湖实践 | Iceberg 在网易云音乐的实践
本文将从另一个角度为大家介绍 iceberg(结合之前推送的Iceberg快速入门,可以更深入的理解),然后分享 iceberg 在网易云音乐的一些实践,希望对大家能有所帮助。1icebe...转载 2021-06-10 11:32:51 · 1277 阅读 · 0 评论 -
云原生数据湖构建、分析与开发治理最佳实践及案例分享
作者郑锴,阿里云高级技术专家张晨晖,阿里云产品专家最近几年数据湖热度很高,当搞大数据的同学聚在一起时候,经常会谈到这方面的话题,可能有的同学说“我们在做 Hudi 数据湖,你们用 Delt...转载 2021-06-08 08:50:00 · 457 阅读 · 0 评论 -
基于 Flink+Iceberg 构建企业级实时数据湖
Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次...转载 2020-11-27 08:08:00 · 390 阅读 · 0 评论 -
Delta实践 | Delta Lake在Soul的应用实践
作者:张宏博,Soul大数据工程师一、背景介绍(一)业务场景传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动...转载 2021-03-02 08:50:19 · 269 阅读 · 0 评论 -
数据湖Iceberg | Apache Iceberg快速入门
本文作为数据湖Iceberg专题的第二篇文章,将重点介绍Iceberg是什么,希望能让大家对Iceberg有一个初步的印象。上篇文章从实时数仓开始讲到批流一体,谈了谈对大数据架构体系发展趋...转载 2021-04-05 15:37:53 · 2071 阅读 · 0 评论 -
数据湖Iceberg | 实时数据仓库的发展、架构和趋势
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一...转载 2021-04-05 15:37:53 · 1737 阅读 · 1 评论 -
Flink + Iceberg 如何解决数据入湖面临的挑战
本文来自4月17日 Apache Flink x Iceberg Meetup 上海站胡争老师的分享,文末有视频回顾和PPT资源下载~欢迎关注公众号,一起探讨交流!【PPT下载】https...转载 2021-04-18 09:28:12 · 241 阅读 · 0 评论 -
Hudi社区 | 致广大数据湖用户的一封信
随着数据湖概念的流行,涌现了很多关于Apache Hudi的文章,但很多文章在阐述时仅仅将Hudi当做一种表格式,这引发了社区的思考,思考Hudi的愿景到底是什么,并且在Hudi社区发起了...转载 2021-04-19 22:31:46 · 335 阅读 · 1 评论 -
Hudi社区 | Apache Hudi集成Spark SQL抢先体验
1. 摘要社区小伙伴一直期待的Hudi整合Spark SQL的[HUDI-1659](https://github.com/apache/hudi/pull/2645)正在积极Review...转载 2021-05-07 07:48:51 · 968 阅读 · 2 评论 -
Flink + Iceberg 在去哪儿的实时数仓实践
摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括:背景及痛点Iceberg 架构痛点一:Kafka 数据丢失痛点二:近实时 Hive 压力...转载 2021-05-31 22:33:28 · 517 阅读 · 0 评论 -
使用Apache Hudi构建大规模、事务性数据湖
一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk关于Nishith Agarwal更详...转载 2020-06-28 08:07:48 · 338 阅读 · 0 评论 -
数据仓库、数据湖、流批一体,终于有大神讲清楚了!
作者:蒋晓伟(量仔) 阿里云研究员金晓军(仙隐)阿里云高级技术专家摘要数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,...转载 2020-06-18 08:07:00 · 1091 阅读 · 0 评论 -
使用Apache Spark和Apache Hudi构建分析数据湖
1. 引入大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数...转载 2020-06-15 17:08:00 · 2183 阅读 · 0 评论 -
数据湖 | 一文读懂Data Lake的概念、特征、架构与案例
本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;7、总结。受限于个人水平,谬...转载 2020-06-07 13:15:11 · 29593 阅读 · 4 评论 -
官宣!ASF官方正式宣布Apache Hudi成为顶级项目
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正...转载 2020-06-05 09:44:37 · 1453 阅读 · 0 评论 -
Apache Hudi在医疗大数据中的应用
本篇文章主要介绍Apache Hudi在医疗大数据中的应用,主要分为5个部分进行介绍:1. 建设背景,2. 为什么选择Hudi,3. Hudi数据同步,4. 存储类型选择及查询优化,5....转载 2020-05-31 21:28:30 · 577 阅读 · 0 评论 -
Hudi原理 | Apache Hudi 典型应用场景介绍
1.近实时摄取将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中,一般使用混合提取工具并以零散的方式解决该问题,尽管这些数据对组织是...转载 2020-05-21 08:20:00 · 4161 阅读 · 0 评论 -
Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析
作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等...转载 2020-02-19 15:01:52 · 7798 阅读 · 0 评论 -
Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1....转载 2020-02-01 09:36:24 · 443 阅读 · 0 评论 -
超越数据湖和数据仓库的新范式:LakeHouse
翻译自:https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html1. 引入在Databricks的过去几年...转载 2020-02-04 14:17:30 · 901 阅读 · 0 评论