数据湖
Mathieu66
Apache Hudi Commiter
展开
-
Hudi回调功能简介及使用示例
Hudi回调功能简介及使用示例1. 功能简介从0.6.0版本开始,Hudi开始支持 commit 回调功能。每当Hudi成功提交一次 commit, 其内部的回调服务就会向外部系统发出一条回调信息。用户可以根据该回调信息查询hudi表的增量数据,并根据具体需求进行相应的业务处理。1.1 支持的回调方式当前 HoodieDeltaStreamer 可用过 HTTP(默认) 和 Kafka 两种方式向外部发送回调信息,而 SparkDataSource 只支持 HTTP 一种。两种数据摄入方式在使用回调原创 2020-12-25 15:47:16 · 1035 阅读 · 0 评论 -
DataLake(转载)
DataLake5 February 2015Martin FowlerData Lake is a term that's appeared in this decade to describe an important component of the data analytics pipeline in the world of Big Data. The idea is t...转载 2020-01-04 11:28:12 · 1530 阅读 · 0 评论 -
DataLake(翻译) - Martin Fowler 2015.02.05
原文地址:https://martinfowler.com/bliki/DataLake.html译文如下:Data Lake 是近十年出现的一个术语,用于描述大数据世界中数据根系管道的重要组成部分。其主题思想是为一个组织中任何人可能需要分析的所有原始数据提供一个存储。通常,人们使用Hadoop来处理湖中的数据,但这个概念不局限于Hadoop。当我听到要将要分析的所有数据汇总到一起时,我立即想到了数据仓库(和数据集市)。但是,数据湖和数据仓库之间存在重大区别。数据湖以数据源提供的任何形式存储翻译 2020-08-18 17:52:59 · 314 阅读 · 0 评论