HuailiShang-CSDN博客

在dedupilcation的sql写法中，由于order by 后的时间字段有处理时间和事件时间，依照升序或者降序的不同，加上可能出现的数据乱序情况，输出流可能分为回撤流Retract和追加流Append-only。如果如果order by 后的字段为时间属性字段，且sql 中有 rowNum = 1子句，则flink会将其解析为Deduplication 的查询。如果order by 后的字段不为时间属性字段，且sql 中有 rownum <= N 子句，则flink会将其解析为TopN的查询。

2024-02-19 15:19:02 361 1

原创 Hbase api中table类属于同步操作

向Hbase中执行插入单条数据时(即 table.put(put))，会经历客户端Client发出写入请求 -> 服务端RegionSever写入WAL和MemStore的执行过程。Hbase 常用的java api中常通过连接创建table对象，使用此table对象完成单条数据的插入。由于Client属于同步客户端类型，会等待RegionSever写入操作完成并返回反馈后进行下一条数据的插入。Hbase 2.0版中引入了异步客户端(对应着AsyncTable). 两类Table大致区别如下。

2024-01-28 22:25:40 439

原创 Flink 中Join type及Interval Join

flink中的join类型

2023-12-10 23:32:19 144 1

原创浅议Flink Window Join时Watermark的推进机制

在flink 双流 window Join时，整个Flink作业的Watermark是两条流watermark的最小值。只有当整个作业的Watermark超过了窗口的结束时候，此窗口内Join上的元素才会被输出。

2023-12-03 22:38:16 178 1

原创浅议数据治理模块的几项重要内容

随着上线任务的积累，数据质量不高、重复开发、加工口径不一致等等问题也逐渐突出。良好的数据治理成为提升工作效率的合适途径。

2023-11-19 23:44:04 197

原创浅议Atlas HiveMetaStoreBridge 运行机制

使用HiveMetaStoreBridge的方式来导入Hive的历史元数据,分析其运行过程

2023-11-18 00:01:39 71 1

原创 Flink作业资源本地化时的相关路径

YARN 利用资源本地化机制将相关的依赖从 HDFS 下载到各个容器所在的节点。这样，TaskManager在执行任务逻辑时可以直接使用本地的资源，无需再从远程 HDFS 上拉取文件，从而提高了作业的执行效率

2023-11-12 22:19:37 23

原创浅议用FlinkKafkaProducer实现sink端的Exactly Once语义

整个flink处理链路大致分为 Source -> Transform -> Sink三个环节. 选用支持消息持久化和重置消费位点的kafka组件即可保证Source端的数据精确一次处理。依靠flink自身的checkpoint机制保证Transform阶段的数据精确一次处理。本文讨论选用支持事务的kafka实现Sink端的数据精确一次处理。

2023-11-12 22:09:00 236

原创浅议Altas Hive Hook的运行机制

Atlas 通过自带的Hive Hook程序获取hive sql执行过程中的元数据变动。本文通过分析Hive Hook的相关代码来探究其运行机制。

2023-11-12 20:25:54 254

HuailiShang的博客

原创浅议Kafka中消息大小的设置

原创浅议Flink中算子间的八种数据传输策略

原创浅议Flink中TaskManager的内存模型

原创 Flink SQL中decimal类型和varchar类型几点注意事项

原创浅议Flink中的状态及存储

原创浅议基于离线历史数据结合Flink获得长周期聚合指标的实现方案

原创 StarRocks分区分桶及副本数概念

原创 Flink sink端使用Upsert Kafka的案例

原创 Flink SQL中TopN和去重算子的SQL写法