iceberg
文章平均质量分 84
hellozhxy
这个作者很懒,什么都没留下…
展开
-
企业数据仓库技术架构
数据仓库自上世纪九十年代提出以来,技术架构一直在不断更新,尤其是进入二十一世纪以来,随着大数据相关技术的发展,数据仓库架构经历了多次升级。本文首先讲解了数据仓库的一些基本知识,包括什么是数据仓库、数据仓库和数据库的区别、数据仓库中的一些基本概念,以及数据仓库包含的层级,接着对各代数据仓库的架构一一进行讲解,从传统数仓,到大数据数仓,再到实时数仓,直到最新的湖仓一体。转载 2022-10-14 17:41:58 · 1078 阅读 · 0 评论 -
Flink 如何实时分析 Iceberg 数据湖的 CDC 数据
常见的 CDC 分析方案 为何选择 Flink + Iceberg 如何实时写入读取 未来规划一、常见的 CDC 分析方案我们先看一下今天的 topic 需要设计的是什么?输入是一个 CDC 或者 upsert 的数据,输出是 Database 或者是用于大数据 OLAP 分析的存储。我们常见的输入主要有两种数据,第一种数据是数据库的 CDC 数据,不断的产生 changeLog;另一种场景是流计算产生的 upsert 数据,在最新的 Flink 1.12 版本已经支持了 upsert 数据转载 2021-08-11 17:25:01 · 498 阅读 · 0 评论 -
数据湖探索与实践
01数据仓库平台建设的痛点痛点一:我们凌晨一些大的离线任务经常会因为一些原因出现延迟,这种延迟会导致核心报表的产出时间不稳定,有些时候会产出比较早,但是有时候就可能会产出比较晚,业务很难接受。为什么会出现这种现象的发生呢?目前来看大致有这么几点要素:任务本身要请求的数据量会特别大。通常来说一天原始的数据量可能在几十TB。几百个分区,甚至上千个分区,五万+的文件数这样子。如果说全量读取这些文件的话,几百个分区就会向NameNode发送几百次请求,我们知道离线任务在凌晨运行的时候,NameN转载 2021-08-11 16:46:44 · 168 阅读 · 0 评论 -
数据湖之iceberg系列(五)-Spark实时处理数据
1 接收网络数据 将数据实时写入到iceberg表中开启nc 服务用于模拟数据输出nc -lk 99992 spark实时读取数据将数据写入到iceberg表中// 获取spark对象 val spark = SparkSession.builder() .config("spark.sql.catalog.hadoop_prod.type", "hadoop") // 设置数据源类别为hadoop .config("spark.sql.catalog.had...转载 2021-08-11 16:06:29 · 770 阅读 · 0 评论 -
数据湖之iceberg系列(四)iceberg-spark编程
1 创建maven项目 添加依赖<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.12.12</scala.version> <spark.v...转载 2021-08-11 16:02:46 · 526 阅读 · 0 评论 -
数据湖之iceberg系列(一)iceberg能做什么
1 前言 HIVE的缺陷Hive的元数据依赖一个外部的MySQL和HDFS文件系统,通过MySQL找到相关的parition之后,需要为每个partition去HDFS文件系统上按照分区做目录的list操作。在文件量大的情况下,这是一个非常耗时的操作。同时,由于元数据分属MySQL和HDFS管理,写入操作本身的原子性难以保证。即使在开启Hive ACID情况下,仍有很多细小场景无法保证原子性。另外,Hive Metastore没有文件级别的统计信息,这使得filter只能下推到partition级别,转载 2021-08-11 16:01:05 · 935 阅读 · 0 评论 -
数据湖之iceberg系列(三)iceberg快速入门
1 环境准备准备大数据集群 .安装HDFS ,HIVE,SAPRK ,FLINK下载运行集群环境运行是需要的jar包下载地址:http://iceberg.apache.org/releases/2 spark将读写iceberg表中数据准备spark集群, 并配置iceberg环境在spark的配置目录中添加hadoop和hive的配置文件 方便spark与hadoop和hive整合在spark的jars包中添加下载好的iceberg的jar包2.1 catalog为hadoop转载 2021-08-10 16:38:17 · 2716 阅读 · 1 评论 -
Apache Iceberg 快速入门
导言本文主要介绍如何快速的通过Spark访问 Iceberg table。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopSpark通过DataSource和DataFrame API访问Iceberg table,或者进行Catalog相关的操作。由于Spark Data Source V2 API还在持续的演进和修改中,所以Iceberg在不同的Spark版本中的使用方式有所不同。版本对比功能 Spark 2.4转载 2021-07-30 11:11:36 · 1229 阅读 · 0 评论