数据湖相关
文章平均质量分 82
数据湖相关
黄瓜炖啤酒鸭
黄瓜炖啤酒鸭 欢迎分享,欢迎交流,有不懂的可以加微信交流,拒绝红包等利益交流,不懂就问。
展开
-
hudi的操作记录备份以及文档
Flinkdatagen代码:public class TestDataKafka2doris { private static final String JDBC_SQL = "CREATE TABLE join_test (\n"+ " id INT,\n" + " name STRING\n"+ " ) WITH (\n"+ " 'connector' = 'jdbc',\n"...原创 2021-05-17 10:27:57 · 1300 阅读 · 3 评论 -
hudi同时读写遇到的问题,以及疑惑汇总
1,创建一个kafka的表%flink.ssqlDROP TABLE IF EXISTS logtail;--创建kafka表CREATE TABLE logtail (order_state_tag int ......................) WITH ('connector' = 'kafka','topic' = 'ods.rds_core.plateform_stable.assure_orders','prop...原创 2021-05-07 15:37:45 · 4924 阅读 · 6 评论 -
基于zeppelin使用hive或Flink查询hudi的数据
目录目标:一,导入jar二,创建hudi表:mor:cow:写入数据:三,创建hive外部表四,查询结果五,问题总结最后提醒:目标:像iceberg一样,在hive能直接查询hudi表数据。一,导入jar将hudi-hadoop-mr-bundle-0.9.0-SNAPSHOT.jar放入到hivelib下面;二,创建hudi表:mor:cow:写入数据:三,创建h...原创 2021-04-28 16:39:02 · 1136 阅读 · 1 评论 -
基于zeppelin,Flink操作hudi 草稿
声明测试是CDH环境Flink 1.12.2hudi是最新版本1,flinklib下面hudi-flink-bundle_2.11-0.9.0-SNAPSHOT.jar这个包是大佬编译的,解决了hive的依赖冲突,已经提到社区了,后续会合并到分支。2,zeppelin操作...原创 2021-04-27 19:23:12 · 330 阅读 · 4 评论 -
iceberg整合hive(从hive读取iceberg表数据)实践02
目录实现目标:1,创建hadoop catalog在zeppelin创建hadoop catalog2,创建基于hadoop_catalog的iceberg表 3,从hadoop_catalog来创建hive表,在hive shell执行4,向iceberg插入数据验证5,hive查询实现目标: 在hive查询iceberg表数据1,创建hadoop catalog在zeppelin创建hadoop catalogCREATE CAT...原创 2021-04-26 20:19:39 · 5593 阅读 · 6 评论 -
Apache Iceberg 数据湖从入门到放弃(2) —— 初步入门
在介绍如何使用Iceberg之前,先简单地介绍一下Iceberg catalog的概念。catalog是Iceberg对表进行管理(create、drop、rename等)的一个组件。目前Iceberg主要支持HiveCatalog和HadoopCatalog两种Catalog。其中HiveCatalog将当前表metadata文件路径存储在Metastore,这个表metadata文件是所有读写Iceberg表的入口,所以每次读写Iceberg表都需要先从Metastore中取出对应的表meta...转载 2021-04-08 09:48:59 · 4537 阅读 · 0 评论 -
Apache Iceberg 数据湖从入门到放弃(1) —— 初步入门三部曲
本文作为数据湖Iceberg专题的第二篇文章,将重点介绍Iceberg是什么,希望能让大家对Iceberg有一个初步的印象。上篇文章从实时数仓开始讲到批流一体,谈了谈对大数据架构体系发展趋势的看法。文章最后讲到了基于数据湖Iceberg实现的存储层统一方案,以及要实现此方案Iceberg需要满足的一些技术上的要求,引出本专题的主角Iceberg。为什么要写这样一个专题?一方面是因为目前自己主要负责这块的工作,算是一个工作的总结和整理;另一方面也是希望能够让更多大数据相关的业务同...转载 2021-04-08 09:45:49 · 1850 阅读 · 0 评论 -
Apache Iceberg 数据湖从入门到放弃(0) —— 初步入门三部曲
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。实时数仓建设:实时数仓1.0传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一类诸如大部分实时报表的需求通常没有非常...转载 2021-04-08 09:44:11 · 1083 阅读 · 1 评论 -
TwoPhaseCommitSinkFunction二阶段提交
1,什么是二阶段提交?TwoPhaseCommitSinkFunctionFlink 已经为我们提供了实现 Exactly-Once 的 FlinkKafkaProducer 类。如下图所示:它实现了TwoPhaseCommitSinkFunction类,并重写了其中的方法,通过 2PC (Two Phase Comit) 二阶提交的方式,实现了 Exactly-Once。使用关系型数据库 MySQL,开启 CheckPoint 机制的前提下,为了保证前一次 CheckPoint ...原创 2020-11-23 16:36:32 · 2288 阅读 · 4 评论 -
转载,维表join详解
维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,在建设离线数仓的时候,通常是将维表与事实表进行关联构建星型模型。在实时数仓中,同样也有维表与事实表的概念,其中事实表通常存储在kafka中,维表通常存储在外部设备中(比如MySQL,HBase)。对于每条流式数据,可以关联一个外部维表数据源,为实时计算提供数据关联查询。维表可能是会不断变化的,在维表JOIN时,需指明这条记录关联维表快照的时刻。需要注意是,目前Flink SQL的维表JOIN仅支持对当前时刻维表快照的关联(处理时间语义),而不支持事实转载 2020-09-04 15:29:28 · 1089 阅读 · 0 评论