
iceberg
文章平均质量分 90
*星星之火*
从菜鸟到专家,陪同大家一起成长
展开
-
实践数据湖iceberg 第四十二课(业界视野)业界的流批一体架构
了解iceberg的特性后,把视野放到行业,看看行业的湖仓一体架构上怎么的,作者主要分析:微视、爱奇艺、小米、网易严选的架构原创 2023-03-01 10:44:33 · 812 阅读 · 0 评论 -
实践数据湖iceberg 第四十一课 iceberg的实时性-业界的checkpoint配置
对iceberg checkpoint时间设置,有疑问,官方建议至少一分钟,行内各个大公司配多久呢?作者,专门学习各个公司在datafund上的分享以及网络文章,记录几个大公司的配置时间原创 2023-03-01 10:14:55 · 540 阅读 · 0 评论 -
实践数据湖iceberg 第四十课 iceberg的sql运维方式(合并文件、合并元数据、清理历史快照)
iceberg的sql化运维(合并文件、合并元数据、清理历史快照)原创 2023-02-21 10:35:57 · 1398 阅读 · 0 评论 -
实践数据湖iceberg 第四十一课 测试维表更新场景
flink sql 中kafka 表join mysql表,发现无法检测到mysql表到新增、update, 百度多篇文章,写得好像可以解决问题,但又没有详细的解决方法步骤,故而写本人,期后来者以填坑。本文记录测试思路、流程与结论。测试结论:1.kaka做为驱动表源,可以通过lookup的方式,感知mysql维表的变化 2.iceberg表无法使用lookup方式,不能通过lookup感知mysql维表的变化原创 2022-11-21 11:33:00 · 1114 阅读 · 0 评论 -
实践数据湖iceberg 第三十九课 清理快照前后数据文件变化分析
分析hive_iceberg_catalog.system.expire_snapshots()命令前后,数据湖表底层发生的变更原创 2022-08-05 16:58:05 · 1520 阅读 · 0 评论 -
实践数据湖iceberg 第三十八课 spark sql, Procedures语法进行数据治理(小文件合并,清理快照)
从kafka源写入iceberg,会生成大量的小文件,合并小文件,有代码的方式,spark3结合iceberg0.11后,支持使用sql方式实现文件治理,本文记录 expire_snapshots,rewrite_manifests的运行效果与底层文件的变化原创 2022-08-05 10:16:39 · 2249 阅读 · 0 评论 -
实践数据湖iceberg 第三十七课 kakfa写入iceberg的 icberg表的 enfource ,not enfource测试
测试 iceberg读取kafka的数据,能否根据kafka上的id,入湖时,自动更新iceberg的数据,对这个场景进行测试测试结果:不能原创 2022-07-22 16:25:50 · 1968 阅读 · 0 评论 -
实践数据湖iceberg 第三十六课 基于数据湖icerberg的流批一体架构--update mysql select from icberg语法是增量更新测试
续上一课,计算一个PV的,案例,最终把结果更新到MYSQL本文测试如下语法是否增量更新insert into default_catalog.default_database.mysql_pv select dt, cast(count(*) as int) as pv from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ where原创 2022-06-17 14:44:17 · 1208 阅读 · 0 评论 -
实践数据湖iceberg 第三十五课 基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量
上一课中,讲到增量更新,小弟的boss问到,增量实现,是读增量数据还是把历史数据也重新读了一次? 暴击,按照我的理解,就是读增量。。。,大佬是不认按照理解的! 好吧,测试一下,故有本文,读者感到我滴血的心嘛,试问大家有没有这种经历。。。......原创 2022-06-16 21:21:59 · 1082 阅读 · 0 评论 -
实践数据湖iceberg 第三十四课 基于数据湖icerberg的流批一体架构-流架构测试
lambda架构中, kafka->flink中支持 各种流函数,数据入iceberg后,如何对icberg进行流操作,实现类似流函数的结果?基于数据湖的流批一体是什么意思?原创 2022-06-14 15:46:26 · 2037 阅读 · 4 评论 -
实践数据湖iceberg 第三十三课 升级flink到1.14,自带functioin支持json函数
需要flink支持类似hive的get_json_object的功能,又不想自定义function, 有什么办法?目前用flink1.13.5版本,看官网,自带function都没有这个函数,于是发现了新版本flink1.14提供了这些功能,于是有了升级的冲动。。。原创 2022-05-09 20:30:08 · 1534 阅读 · 0 评论 -
实践数据湖iceberg 第三十二课 DDL语句通过hive catalog持久化方法
问题: flink的sql-client上,创建表,只是当前session有用,退出回话,需要重新创建表。多人共享一个表,很麻烦,有什么办法?解决方法:把建表的DDL操作,持久化到HIVE上,由hive来管理。如何实现呢? 使用hive catalog,在hive catalog下创建表。所有表都是持久化的。原创 2022-05-07 14:40:14 · 1156 阅读 · 2 评论 -
实践数据湖iceberg 第三十一课 使用github的flink-streaming-platform-web工具,管理flink任务流,测试cdc重启场景
flink重启,需要从checkpoint恢复。涉及到任务工程化管理,自研一套这种工具,很耗时,对小公司来说,吃力不讨好,所有寻找了个开源方案, 测试flink-streaming-platform-web ,支持sql,jar,各种集群模式提交,亲测可用原创 2022-04-28 14:49:24 · 1453 阅读 · 1 评论 -
实践数据湖iceberg 第三十课 mysql->iceberg,不同客户端有时区问题
mysql->flink-sql-cdc->iceberg。从flink查数据时间没问题,从spark-sql查,时区+8了。对这个问题进行记录最后解决方案: 源表没有timezone, 下游表需要设置local timezone,这样就没问题了!原创 2022-04-21 16:33:34 · 4115 阅读 · 0 评论 -
实践数据湖iceberg 第二十九课 如何优雅高效获取flink的jobId
提交一个flink作业,希望获取这个作业的jobId,以便后续程序监控,例如获取checkpoint路径,从checkpoint点重启原创 2022-04-15 16:50:18 · 2954 阅读 · 0 评论 -
实践数据湖iceberg 第二十八课 把公有仓库上不存在的包部署到本地仓库
**问题**: iceberg很多包,maven仓库没有,但iceberg提供了,通过pom编译打包,报错,原因是maven仓库没有这个包。**解决方法**:把这些包通过maven命令把包打到本地仓库原创 2022-04-14 16:56:50 · 1906 阅读 · 0 评论 -
实践数据湖iceberg 第二十七课 flink cdc 测试程序故障重启:能从上次checkpoint点继续工作
程序化部署,测试flink cdc重启恢复测试思路:1.程序停止时,进行checkpoint记录,记录checkpoint的位置 2.程序停止时,写入数据, 记录写入的数据, 测试重启后,能否从故障点开始恢复。结论:能原创 2022-04-07 17:32:42 · 4316 阅读 · 0 评论 -
实践数据湖iceberg 第二十六课 checkpoint设置方法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言checkpoint设置方法一、pandas是什么?二、使用步骤1.引入库2.读入数据3.总结前言checkpoint设置方法提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么? StreamExecutionEnvironment原创 2022-04-01 16:36:48 · 2338 阅读 · 0 评论 -
实践数据湖iceberg 第二十五课 后台运行flink sql 增删改的效果
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-04-01 15:04:44 · 2376 阅读 · 0 评论 -
实践数据湖iceberg 第二十四课 iceberg元数据详细解析
本文彻底解释 iceberg元数据 存储细节实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-23 20:50:36 · 5238 阅读 · 0 评论 -
实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启
成功测试flink-sql以非jar包的方式从checkpoint重启,完成故障恢复测试实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-23 15:46:18 · 4675 阅读 · 1 评论 -
实践数据湖iceberg 第二十二课 flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)
成功测试 flink+mysql-cdc+iceberg数据湖的CRUD实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-22 21:13:47 · 2620 阅读 · 0 评论 -
实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-22 19:30:46 · 2992 阅读 · 0 评论 -
实践数据湖iceberg 第二十课 flink + iceberg CDC场景(版本问题,测试失败)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-18 16:22:14 · 3535 阅读 · 0 评论 -
实践数据湖iceberg 第十九课 flink count iceberg,无结果问题
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-15 20:51:02 · 1261 阅读 · 0 评论 -
实践数据湖iceberg 第十八课 多种客户端与iceberg交互启动命令(常用命令)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-15 20:49:58 · 1716 阅读 · 0 评论 -
实践数据湖iceberg 第十七课 hadoop2.7,spark3 on yarn运行iceberg配置
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-15 16:46:23 · 1506 阅读 · 0 评论 -
实践数据湖iceberg 第十六课 通过spark3打开iceberg的认知之门
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-14 14:56:52 · 2362 阅读 · 0 评论 -
实践数据湖iceberg 第十五课 spark3安装与集成iceberg0.13 (jersey包冲突,安装完成)
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-13 15:49:49 · 2892 阅读 · 0 评论 -
实践数据湖iceberg 第十四课 元数据合并(解决元数据随时间增加而元数据膨胀的问题)
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-11 14:56:39 · 2706 阅读 · 0 评论 -
实践数据湖iceberg 第十二课 catalog是什么
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-11 11:05:43 · 3502 阅读 · 0 评论 -
实践数据湖iceberg 第十三课 metadata比数据文件大很多倍的问题
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录iceberg小文件合并后出现的问题总结iceberg小文件合并后出现的问题[root@hadoop103 ~]# hadoop fs -du -h /user/hive/warehouse/hive_catalog6/iceberg_db6.db/behavior_l原创 2022-02-11 10:17:21 · 2264 阅读 · 0 评论 -
实践数据湖iceberg 第十一课 测试分区表完整流程(造数、建表、合并、删快照)
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-01-28 18:00:23 · 4218 阅读 · 0 评论 -
实践数据湖iceberg 第十课 快照删除
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-01-28 10:09:44 · 2967 阅读 · 2 评论 -
实践数据湖iceberg 第九课 合并小文件
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言1. 合并小文件二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考原创 2022-01-28 10:07:50 · 4625 阅读 · 7 评论 -
实践数据湖iceberg 第八课 hive与iceberg集成
系列文章目录实践数据湖iceberg 第一课实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceberg失败原创 2022-01-20 17:25:26 · 8353 阅读 · 9 评论 -
实践数据湖iceberg 第七课 实时写入到iceberg
系列文章目录提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言1. 制造数据2. 通过flume把制造的数据,写入到kafka2.1 flume把日志直接写到kafka的配置文件2.2 准备启动flume agent的脚本2.3 检查是否写入到kafka3.把kakfa的行为数据入湖3.1.定义kafka表3.1.1 使用csv格式读取看看3.1.2 使用raw格式读取看看3.2 定义iceberg表3.3 kafka表入到iceberg4.观察生成的数据5.原创 2022-01-19 21:11:11 · 3012 阅读 · 0 评论 -
实践数据湖iceberg 第六课 从kafka写入到iceberg失败问题 解决
实践数据湖iceberg 系列文章目录文章目录实践数据湖iceberg 系列文章目录前言1. 解决方案2. 重跑flink sql总结前言遇到的问题: 前面3节课,从kafka读数据写入到iceberg,不报错,就是没有数据写成功,多次查看官网 https://iceberg.apache.org/#flink/, 没有解决方案。终极解决方案: 增加chepoint配置。没有checkpoint,就没有输出吐槽: 只看官网,就是笨蛋, 估计官网写文档的人都没有实践过,是否换个人去写官原创 2022-01-19 15:30:07 · 2508 阅读 · 3 评论 -
实践数据湖iceberg 第五课 hive catalog特点
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2022-01-18 15:46:52 · 2407 阅读 · 4 评论 -
实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录版本一、启动flink sql2. 建kafka表3. 读kafka的数据写入到kafka2.读入数据总结版本flink-1.12.7-bin-scala_2.12flink-sql-connector-hive-2.3.6_2.12-1.12.7.jarkafka_原创 2022-01-18 15:25:25 · 1591 阅读 · 0 评论