HUDI preCombinedField 总结

董可伦

已于 2022-10-30 14:35:12 修改

阅读量4.4k

点赞数 5

分类专栏： Spark Hudi 文章标签： Hudi Spark 数据湖

于 2022-01-04 19:37:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dkl12/article/details/122309954

版权

Spark 同时被 2 个专栏收录

76 篇文章 8 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

46 篇文章 5 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文总结了Hudi的preCombinedField在Spark SQL和DataFrame中的使用，包括预合并逻辑、去重规则以及如何影响数据更新。在Spark DF中，无论是UPSERT还是INSERT，预合并字段ts用于去重并决定保留哪条记录。SQL建表时，预合并字段可以通过配置控制去重策略。源码解读部分探讨了ts字段的必要性和相关异常处理。

摘要由CSDN通过智能技术生成

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

总结 HUDI preCombinedField,分两大类总结，一类是Spark SQL,这里指的是merge，因为只有merge语句中有多条记录，讨论preCombinedField才有意义；一类是Spark DF，HUDI0.9版本支持SQL建表和增删改查

总结

先说结论：

Spark DF建表写数据时（含更新）：
1、UPSERT，当数据重复时（这里指同一主键对应多条记录），程序在写数据前会根据预合并字段ts进行去重，去重保留ts值最大的那条记录，且无论新记录的ts值是否大于历史记录的ts值，都会覆盖写，直接更新。
2、INSERT时，没有预合并，程序依次写入，实际更新为最后一条记录，且无论新记录的ts值是否大于历史记录的ts值，都会覆盖写，直接更新。
Spark SQL建表&#x

了解本专栏

超级会员免费看

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
4
评论
HUDI preCombinedField 总结

总结 HUDI preCombinedField,分两大类总结，一类是Spark SQL,这里指的是merge，因为只有merge语句中有多条记录，讨论preCombinedField才有意义；
复制链接

扫一扫

专栏目录

董可伦

CSDN认证博客专家 CSDN认证企业博客

码龄10年

大数据领域优质创作者

163: 原创

6835: 周排名

5500: 总排名

78万+: 访问

: 等级

8321: 积分

2万+: 粉丝

1109: 获赞

1284: 评论

1963: 收藏

私信

关注

热门文章

分类专栏

最新评论

QQ 截图工具独立版安装使用
Ruci_Shenhao: 提示“相关环境初始化失败”是怎么回事呢？
QQ 截图工具独立版安装使用
董可伦: 好吧，我习惯ctrl+alt+a
QQ 截图工具独立版安装使用
YuuuuuCheng: 快捷键设置不能Shift+X
Flink用户自定义连接器（Table API Connectors）学习总结
W.u: 我调接口能获取到，flink 创建表语句也是没问题，但是我在执行select 的时候，他还是这样，用的就是你的建表语句，ip那些我就不贴了。 {"id":1,"name":"wyg"} create table http_get( id int, name string ) flink 的日志报错 Caused by: java.lang.RuntimeException: java.io.IOException: Failed to deserialize JSON '{"id":1,"name":"wyg"}'. at com.dkl.flink.connector.http.HttpSourceFunction.run(HttpSourceFunction.java:70)
Flink用户自定义连接器（Table API Connectors）学习总结
董可伦: 直接用我示例中的建表语句呢？

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董可伦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。