iceberg - checklist 清单

最新推荐文章于 2024-03-13 12:48:14 发布

小皮蛋儿子

最新推荐文章于 2024-03-13 12:48:14 发布

阅读量916

点赞数

分类专栏：大数据文章标签： hive 数据库 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/celltobig/article/details/124666653

版权

大数据专栏收录该内容

16 篇文章 0 订阅

订阅专栏

iceberg调研checklist清单
序号	功能点	问题现象	解决方案	结论	是否解决
1	iceberg在Hive、Spark、Flink 中ddl 基本操作表	1.SQL的方式分在hive建表在spark，flink中查看、操作不了； 2.SQL的方式分spark或者flink建表在hive中查看、操作不了；	1.hive建表中要添加 ROW FORMAT SERDE 'org.apache.iceberg.mr.hive.HiveIcebergSerDe' STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler' ；同时在TBLPROPERTIES 中配置 'engine.hive.enabled' = 'true'；	1.各引擎中dll 操作表略有不同，支持hive操作的要注意配置指定项; 2.spark 中ddl 操作丰富一些，支持力度高	是
2	catalog 引用	1.进入库中，iceberg表与hive 表同时查看不了	1.注册hive的catalog ,同时也注册iceberg表的catalog, 切换到hive的catalog 使用show tables 可以同时看到hive表和iceberg 表	1.catalog 类型不同，使用的表的时候最好要写全名称即 catalog.database.table	是
3	隐藏分区	1.spark建表隐藏分区表，hive 与flink 看不了	1.隐藏分区只能在spark中建立，hive，flink不支持，使用的时候icerberg 表自动权限条件进行筛选	1.隐藏分区一般用在时间上，使用相对应的时间转换函数进行转换	是
4	Metadata/metadata.json 文件过多	1.每次checkpoint 都会会产一个新的文件，导致metadata.json过多	1.配置 'write.distribution-mode'='hash', 'write.metadata.delete-after-commit.enabled'='true', 'write.metadata.previous-versions-max'='5', 保持最近5个，加上正在使用的，一共能看到6个，这个数字可配置	1.0.11版本后可以实现自动合并	是
5	Metadata/snap.avro 快照过期	1.每次checkpoint 都会会产一个新的快照，根据官方文档发现只能手动执行Spark 或者Flink 的java API 才能设置过期，想看看能不能t和metadata.json 一样，通过配置实现自动清理	1.暂时没有发现自动设置过期快照，目前只能通过 java API的方式实现，指定时间戳	自动设置过期功能期待中	是
6	data 小文件过多合并清理删除	1.每次checkpoint 都会会产一个新的文件，导致数据小文件过多，通过java API可以实现合并，定期删除孤文件，根据业务时间进行的分区，发现有操作分区，删除不掉孤文件； 2.如果快照时间过期设置比较靠近当时快照，在执行合并和删除孤文件，有可能会导致程序报错，流写入程序也报错的情况	1.发生此现象是由于合并文件中间的时间差过短，短时间内执行合并操作，发现并无变化，隔长时间段再次合并，如果发现合并后产生的新的文件，那么就可以清理掉 2.如果不指定时间，默认会删除3天前的孤文件，如果指定了时间，离快照比较近，因为是流式入湖的流式数据，和压缩合并程序在同时操作一个表，如果该程序在删除无用文件的同时，其他两个程序很有可能正在读取或者写入，这样会导致删除了一些元数据文件，两程序会报错	设定快照过期的时间之前的文件才能形成孤文件，才能被删除	是
7	v1 v2 表流读流写	1.v1表支持流读流写，v2支持流写，不支持流读 2.v1数据是 append 的不是 change log stream , 导致过多的无用数据 3.v2 是支持 upsert ，操作，却不支持下游流读，形成不了pipeline	1.目前尝试spark merge into 方案，在验证中	spark merge into 最终生成的是overwrite 操作，overwrite 不能流读，所以结论就是流表只做append , change log stream 只能做结果表	是
8	表中时间的读取	1.flink建表字段，timestamp 在spark 中查无法查看	1.flink timestamp 分有时区与无时区的概念，spark查看，需要配置 set `spark.sql.iceberg.handle-timestamp-without-timezone`=true;	flink与spark时间字段略有不同，细节问题	是
9	flink读流表	1.直接读取发现是批读	1.flink 默认是批读，流读要指定参数 SET execution.type = streaming ; SET table.dynamic-table-options.enabled=true; select * from sample_stream_test01 /+ OPTIONS('streaming'='true', 'monitor-interval'='1s')/ ;	注意官方API	是
10	flink流kafka表写入到iceberg表	1.正常提交任务，任务也很正常，有数据byte流动，,iceberg表中却无数据	1.设置checkpoint点，才能正常写入	iceberg 必须得设置checkpoint	是
11	spark 代码流读表	1.sparkspark.readStream.format("kafka"), df.writeStream.format("console") .trigger(Trigger.ProcessingTime("2 seconds")) 打印不出来数据	1.一定要设置.option("checkpointLocation", "~/tmp/ll") 路径，路径根据实际情况是否写本地，或者 hdfs	1.如果发现也都设置了还是没有执行不了，可手动删除指定路径	是

小皮蛋儿子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小皮蛋儿子 CSDN认证博客专家 CSDN认证企业博客

码龄13年

28: 原创

12万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

366: 积分

63: 粉丝

83: 获赞

6: 评论

79: 收藏

私信

关注

热门文章

分类专栏

doris 3篇
Flink 1篇
大数据 16篇
linux 1篇
docker 1篇

最新评论

spark-hbase-BulkLoad
小皮蛋儿子: 唯一不足的没有解决，spark snappy 压缩的问题，目前使用gz 压缩，效果应该没有snappy压缩好，但是也能用。如有解决snappy 压缩的朋友，可以留言或者私信给我
doris 编译环境准备
CSDN-Ada助手: 恭喜您发布了第19篇博客！看到您在准备doris编译环境的实践经验分享，让我对您的学习态度和勤奋精神深感钦佩。希望您能继续保持写作的热情，分享更多有关编译环境准备的经验和技巧。或许可以考虑将重点放在如何优化编译过程，或者探讨不同编译环境下的性能对比等方面，这样会更加丰富您的博客内容。期待您的下一篇作品！祝您写作顺利，不断进步。
drois开窗累计和计算
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题“drois开窗累计和计算”听起来非常有趣和具有挑战性。您的持续创作精神令人钦佩。在下一篇博客中，或许您可以分享一些关于drois开窗累计和计算的具体应用案例，或者介绍一些相关的技巧和最佳实践。这将进一步丰富读者的知识，同时也能够吸引更多的读者。期待您继续为我们带来新的精彩内容！
drois开窗累计和计算
小皮蛋儿子: 累计是按分组算的，排序是对分组内行进行排序参见 https://doris.apache.org/zh-CN/docs/sql-manual/sql-functions/window-functions/WINDOW-FUNCTION
spark操作iceberg表与hive表 join 示例
小皮蛋儿子: mvn安装不了，参见文章：https://blog.csdn.net/weixin_46609492/article/details/122047674

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。