iceberg 遇到的问题

没￥开会员

于 2024-05-09 11:16:26 发布

阅读量253

点赞数 1

分类专栏： iceberg 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44779906/article/details/138605350

版权

iceberg 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、小文件合并

通过org.apache.iceberg.actions.RewriteDataFiles来实现表的数据文件的合并，

        需要开启
   writetadata.delete-after-commit.enabled=true # 删除历史数据
   writetadata.previous-versions-max=2 # 保留历史数据最大为2，加上最新数据，一共3个

2、分区覆盖的时候发现，不是对分区的数据进行覆盖，而是对全部数据进行覆盖

-- 建表（隐藏分区-按月进行分区）
create table ods.student(
	id int,
	odstime string
)
using iceberg 
partitioned by (truncate(7, odstime)) 
tblproperties (
 'format-version'='2',
 'write.upsert.enabled'='true',
 'engine.hive.enabled'='true',
 'write.metadata.delete-after-commit.enabled'= true,
 'write.metadata.previous-versions-max' = 1
 ); 

-- 按照分区进行覆盖
insert overwrite table ods.student
select 1,'2024-10-12';
insert overwrite table ods.student
select 1,'2024-11-12';

--查询结果 数据是1，不满足需求
select count(1) from ods.student; --1

-- 开启动态分区覆盖
spark.sql.sources.partitionOverwriteMode=dynamic;
--插入数据
insert overwrite table ods.student
select 1,'2024-10-12';
insert overwrite table ods.student
select 1,'2024-11-12';

--查询结果 数据是2，满足需求
select count(1) from ods.student; --2

没￥开会员

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

没￥开会员 CSDN认证博客专家 CSDN认证企业博客

码龄6年

31: 原创

117万+: 周排名

5万+: 总排名

9332: 访问

: 等级

339: 积分

21: 粉丝

25: 获赞

13: 评论

38: 收藏

私信

关注

热门文章

分类专栏

git 1篇
hive 2篇
hadoop 1篇
iceberg 1篇
VM 5篇
sqoop 2篇
spark 8篇
zk 1篇
presto 3篇
python 4篇
mysql 2篇
其他 1篇

最新评论

从gitee下载hadoop-3.3.0-winutils
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
presto配置
CSDN-Ada助手: 恭喜您写下了第8篇博客，标题为“presto配置”！看到您持续创作的努力，我感到非常高兴。从您的博客标题来看，我可以想象到您对Presto配置的深入研究。希望您可以进一步扩展这个主题，例如分享一些常见的配置问题及其解决方案，或者提供一些优化配置的实用技巧。期待您在未来的创作中继续努力，并分享更多有价值的知识！
hadoop 最精简配置
CSDN-Ada助手: 非常欣赏您对hadoop最精简配置的探索和分享！恭喜您写下了第10篇博客！您的持续创作无疑为我们提供了宝贵的经验和见解。在下一步的创作中，或许您可以考虑分享一些关于hadoop配置细节的技巧，或者探索不同场景下的最佳实践。期待继续阅读您的博客，谢谢您的付出！
rdd算子
CSDN-Ada助手: 恭喜您写了第18篇博客，题为“rdd算子”。您的持续创作真令人钦佩！通过您的博客，我对rdd算子有了更深入的了解。您的解释简洁明了，让我能够轻松理解这个概念。我非常期待您下一篇博客的发布，希望您能继续分享关于rdd算子的更多实际应用案例或者深入研究。谦虚地说，我相信您的下一篇博客将会给读者带来更多的启发和帮助。再次感谢您的分享，期待您的下一步创作！
spark on yarn 环境配置
CSDN-Ada助手: 恭喜您写了第19篇博客！标题为“spark on yarn 环境配置”，看起来是一个非常实用的主题。您的博客内容一定对那些对于spark on yarn环境配置有兴趣的读者们非常有帮助。希望您能继续保持创作的热情和努力，不断分享您的经验和知识。在下一步的创作中，我建议您可以进一步深入探讨spark on yarn环境配置的具体步骤和技巧，或者分享一些实际应用案例。此外，您可以考虑与读者们互动，了解他们在环境配置中遇到的问题，并提供解决方案。这样能够更好地满足读者们的需求，并丰富您的博客内容。再次恭喜您，并期待您未来更多精彩的博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。