数据湖
文章平均质量分 95
TRX1024
字节内推,可私信~
展开
-
【2】数据湖架构中 Iceberg 的核心特性
在业界的数据湖方案中有 Hudi、Iceberg 和 Delta 三个关键组件可供选择。一、Iceberg 是什么?Iceberg 官网中是这样定义的:Apache Iceberg is an open table format for huge analytic datasets即 Iceberg 是大型分析型数据集上的一个开放式表格式。通过该表格式,将下层的存储介质(HDFS、S3、OSS等)、文件格式(Parquet、Avro、ORC等)与上层计算引擎(Flink、Spark、.原创 2022-03-21 22:00:55 · 5107 阅读 · 3 评论 -
数据湖概念以及数据湖产生的背景和价值
一、数据湖的概念数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。是构建在低成本分布式存储之上,提供更好事物和性能支持的统一数据存储系统。典型分层如下图所示:最底层为存储层:一般依赖HDFS或者公有云存储(比如S3)保存数据;数据格式为开放格式,比如Parquet或者ORC; 中间层为数据表抽象层:它的关键作用在于提原创 2022-03-21 21:44:26 · 5007 阅读 · 3 评论