关于Hudi调研的一些问题记录

最新推荐文章于 2024-08-15 14:20:35 发布

冰雪_ang

最新推荐文章于 2024-08-15 14:20:35 发布

阅读量1.2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenzhiang1/article/details/111177248

版权

最近因为想对业务数据处理架构的调整，想要实现对大数据的增量插入/更新的功能，通过调研，Apache Hudi可以实现这方面的功能，遂进行深入的学习。

hudi增量更新功能的实现方式：

1、COW(copy of write)：只用列式(例如Parquet)进行数据存储，在写入数据过程中，执行同步合并，更新数据版本并重写数据文件。

2、MOR(merge of read)：使用列式(例如Parquet 合并之后的数据) + 行式(avro 新增数据)两种格式进行数据存储。新数据记录到增量文件，然后同步或者异步的方式将增量数据和老数据合并到一块。

查询类型：

1、快照查询：

查询最新的数据。

如果是MOR，将合并最新的基文件(parquet文件)和增量文件(avro)的数据给出近乎实时的数据

如果是COW，就直接读取现有的parquet文件即可(不理解的是，如果另一个进程正在写，读的时候怎么保证是最新的数据)。

2、增量查询：

通过在查询时指定commit或者compaction的时间，可看到指定时间后写入表的最新数据。(我的理解，在你主动commit或者后台进行compaction的时候都会有一个时间记录(hudi里面叫timeline)，对于增量查询，就是查询某个commit或者compaction之后的新录入进来的数据。)

3、读取优化查询：

只提供基本文件(parquet)的数据读取。

综上，我的理解：

快照查询-查询的是近实时的数据。

增量查询-查询的是最新更新的数据。

读取优化查询-主要针对MOR模式，为了提高读取性能，只读取这个模式下的基文件(parquet)数据，列存储文件的数据不进行读取。

一些疑惑：

1、网上的一些介绍全部是概念性的东西，没有人举一个具体的例子来说明实际的操作和执行流程，这一点尤为蛋疼，理解起来不是很容易。

2、从官网和其他人的介绍来看，hudi好像只是一个类似于parquet的使用包，只要引用这个包来进行读写就可以了。

但是我不理解的是，对于read of merge模式，他们说的后台进行数据合并是怎么实现的？理论上应该有一个hudi服务，来进行数据的管理和数据的后端合并，但是从各个介绍来看，没有人说需要搭建hudi服务。

等我做一些实际的实例操作，再来赘述。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

冰雪_ang CSDN认证博客专家 CSDN认证企业博客

码龄10年

25: 原创

3万+: 周排名

9万+: 总排名

5万+: 访问

: 等级

635: 积分

2180: 粉丝

45: 获赞

16: 评论

134: 收藏

私信

关注

热门文章

分类专栏

chatGPT 1篇
WaterMark 1篇
lateness 1篇
Flink 4篇
网络传输 1篇
java 数据结构系列 4篇
计算广告 3篇
Fabric 1篇
spark 3篇
机器学习 1篇
数据湖
netty 1篇
数据结构 1篇
Clickhouse 2篇
windowFunnel 1篇

最新评论

使用langchain+chatGPT搭建自有知识库问答机器人
少年猩猩哥: TypeError: langchain_community.vectorstores.chroma.Chroma.from_texts() got multiple values for keyword argument 'metadatas' 这个报错了作者有解决方法嘛
关于“智能出价“的一些探索和实践
CraryBoy-GG: 爆赞，希望多分享一些广告策略经验
flink reduce详解
风格<>: window 后的reduce 差点绷不住
使用langchain+chatGPT搭建自有知识库问答机器人
冉霸霸: 可以加个联系方式吗，有点问题需要请教下，我这边csv问答,分割问问题的时候前面完全话术一样但是回来的答复不精准，怎么能把csv的回答原封不动的都回复回来啊
使用langchain+chatGPT搭建自有知识库问答机器人
冰雪_ang: 哦，我写错了。 CharacterTextSplitter的构造函数的参数是separator，不是separators。你可以看一下源代码。下面这个是CharacterTextSplitter的源码： [class CharacterTextSplitter(TextSplitter): """Implementation of splitting text that looks at characters.""" def __init__(self, separator: str = "\n\n", **kwargs: Any) -> None: """Create a new TextSplitter.""" super().__init__(**kwargs) self._separator = separator def split_text(self, text: str) -> List[str]: """Split incoming text and return chunks.""" # First we naively split the large input into a bunch of smaller ones. splits = _split_text_with_regex(text, self._separator, self._keep_separator) _separator = "" if self._keep_separator else self._separator return self._merge_splits(splits, _separator)] [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。