Hudi
文章平均质量分 66
TaiKuLaHa
这个作者很懒,什么都没留下…
展开
-
【Hudi】小文件问题
https://blog.csdn.net/u013411339/article/details/123287899原创 2024-02-07 15:49:05 · 131 阅读 · 0 评论 -
【Hudi】参数
官方文档 https://hudi.apache.org/docs/configurations/#FLINK_SQL。原创 2024-02-07 15:42:59 · 176 阅读 · 0 评论 -
【Hudi】Copy-on-Write(COW)和Merge-on-Read(MOR)
这个过程对所有的线程都是透明的,也就是说AC两个线程使用的还是原来的内存数据,当线程B将数据更改后,系统将数据指针移向修改后的数据段上,这样在所有线程都不知情的情况下完成了数据的更新操作。每次新数据的写入,都会基于当前的数据文件产生一个带有提交时间戳的新副本文件,新数据会插入到当前的新副本文件中,直到整个操作没有完成前,所有的查询操作都不会看到这个新的文件副本。在新的副本上进行写入操作,这种方式带来的问题就是在每次数据写入时,都需要重写整列数据文件,哪怕只有一个字节的数据写入(也就是所谓的写放大)。原创 2024-02-05 15:29:21 · 544 阅读 · 0 评论