- 博客(73)
- 资源 (2)
- 收藏
- 关注
原创 【博学谷学习记录】超强总结,用心分享| Hudi核心概念
(2)Action,操作,具体做了什么操作,COMMIT(提交,COW)、DELTA_COMMIT(提交,MOR)、CLEAN(清理)、COMPACTION(压缩)Hudi表 -> partition(分区)-> FileGroup(文件组)->FileSlice(文件片)->1或1个log+1个parquet文件组成。(3)State,这一个操作具体到哪个步骤了(REQUESTED(请求发起)、INFLIGHT(请求进行中)、COMPLETED(请求完成))Data Format数据格式。
2023-05-28 22:00:40 751 1
原创 【博学谷学习记录】超强总结,用心分享| Checkpoint机制
Checkpoint,就是流式程序中用来做容错的机制。它是通过JobManager的检查点协调器(checkpoint coordinator)来协调工作的。
2023-05-14 22:28:54 480
原创 【博学谷学习记录】超强总结,用心分享| Flink的窗口机制
无限制的流式计算,比如:wordcount案例,它没有任何外部的限制条件,这种情况不多。对于第二种情况来说,我们需要加上额外的限制条件。最常用的限制条件就是。特点:上一个窗口的结束就是下一个窗口的开始,数据不重复、也不丢失。有限制的流式计算,比如:统计早高峰时间内经过某个道路的车辆数。滚动窗口 :窗口大小 = 滚动距离(时间间隔)这个时间段,在程序中,就用一个窗口来表示。这就是为什么要学窗口的原因了。渐进式窗口(cumulate)聚合窗口(over)
2023-05-07 21:06:52 545
原创 【博学谷学习记录】超强总结,用心分享| Flink Watermark
生活中有种场景:车辆进入隧道,信号不好,出了隧道后,信号就正常了。正常情况下,车辆进入隧道后,如果车辆正常,没有事故,会正常驶出隧道。在正常的隧道行驶过程中,可能会因为信号的原因,导致数据没有像信号正常的时候那么快到达。也就是说,这种情况下,数据出现了延迟。我们把这种延迟数据称之为迟到数据。生活中,这种场景非常多,比如:车辆进入地下车库,手机欠费,网络抖动等。这都属于生活的正常情况。无法避免。程序中,一般不会允许数据丢失。所以,我们程序会推出一些机制来保证迟到数据被正常处理。
2023-04-16 22:52:22 310
原创 【博学谷学习记录】超强总结,用心分享| HDFS的Arichive机制
HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存,如果存在大量的小文件,它们会吃掉NameNode节点的大量内存。Hadoop Archives可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件。
2022-09-18 19:55:59 713
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人