自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 浅议Kafka中消息大小的设置

如果消息体过大,则一般调整max.request.size和max.message.bytes即可,batch.size则保持默认即可

2024-06-29 23:04:21 747 1

原创 浅议Flink中算子间的八种数据传输策略

Flink中为上下游subtask之间数据传输提供了九种传输策略。

2024-06-09 14:42:50 859 2

原创 浅议Flink中TaskManager的内存模型

本文将初步探讨Flink作业中TaskManager(TM)的内存作用和使用情况,旨在了解TM的内存管理。

2024-05-22 22:14:54 351 1

原创 Flink SQL中decimal类型和varchar类型几点注意事项

传统数据库中表的字段有多种数据类型,Flink SQL API 也为表(动态表)中的字段提供了丰富的数据类型。在Flink sql中decimal类型和varchar类型是常用的两种数据类型。整理近期使用过程中的几点总结​。

2024-05-07 22:28:38 522 1

原创 浅议Flink中的状态及存储

每个Flink状态都有自己的用途和作用范围。通过本地化存储和Checkpoint机制。Flink不仅优化了状态访问的速度,也增强了系统的容错能力

2024-04-13 19:21:11 715

原创 浅议 基于离线历史数据 结合Flink获得长周期聚合指标的实现方案

批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]的累计值

2024-03-19 22:32:02 292 1

原创 StarRocks分区分桶及副本数概念

StarRocks 通过设置分区 + 分桶的方式来实现数据分布

2024-03-16 22:55:30 550 1

原创 Flink sink端使用Upsert Kafka的案例

作为 sink端使用时,upsert-kafka 连接器可以消费 retract流。它会将 INSERT/UPDATE_AFTER 数据作为正常的 Kafka 消息写入,并将 DELETE 数据以 value 为空的 Kafka 消息写入(表示对应 key 的消息被删除)

2024-02-21 13:46:38 453

原创 Flink SQL中TopN和去重算子的SQL写法

在dedupilcation的sql写法中, 由于order by 后的时间字段有 处理时间和事件时间,依照升序或者降序的不同,加上可能出现的数据乱序情况,输出流可能分为回撤流Retract和追加流Append-only。如果如果order by 后的字段为时间属性字段,且sql 中有 rowNum = 1子句,则flink会将其解析为Deduplication 的查询。如果order by 后的字段不为时间属性字段,且sql 中有 rownum <= N 子句,则flink会将其解析为TopN的查询。

2024-02-19 15:19:02 361 1

原创 Hbase api中table类属于同步操作

向Hbase中执行插入单条数据时(即 table.put(put)),会经历 客户端Client发出写入请求 -> 服务端RegionSever写入WAL和MemStore​的执行过程。Hbase 常用的java api中 常通过连接创建table对象,使用此table对象完成​单条数据的插入。由于Client属于同步客户端类型,会等待RegionSever写入操作完成并返回反馈后​进行下一条数据的插入。Hbase 2.0版中引入了异步客户端(对应着AsyncTable). 两类Table大致区别​如下。

2024-01-28 22:25:40 439

原创 Flink 中Join type及Interval Join

flink中的join类型

2023-12-10 23:32:19 144 1

原创 浅议Flink Window Join时Watermark的推进机制

在flink 双流 window Join时,整个Flink作业的Watermark是两条流​watermark的最小值。只有当整个作业的Watermark超过了窗口的结束时候,此窗口内Join上的元素才会​被输出。

2023-12-03 22:38:16 178 1

原创 浅议数据治理模块的几项重要内容

随着上线任务的积累,数据质量不高、重复开发、加工口径不一致等等问题也逐渐突出。良好的数据治理成为提升工作效率的合适途径。

2023-11-19 23:44:04 197

原创 浅议Atlas HiveMetaStoreBridge 运行机制

使用HiveMetaStoreBridge的方式来导入Hive的历史元数据,分析其运行过程

2023-11-18 00:01:39 71 1

原创 Flink作业资源本地化时的相关路径

YARN 利用资源本地化机制将相关的依赖从 HDFS 下载到各个容器所在的节点。这样,TaskManager在执行任务逻辑时可以直接使用本地的资源,无需再从远程 HDFS 上拉取文件,从而提高了作业的执行效率

2023-11-12 22:19:37 23

原创 浅议用FlinkKafkaProducer实现sink端的Exactly Once语义

整个flink处理链路大致分为 Source -> Transform -> Sink三个环节. 选用支持消息持久化和重置消费位点的kafka组件即可保证Source端的数据精确一次处理。依靠flink自身的checkpoint机制保证Transform阶段的数据精确一次处理。本文讨论选用支持事务的kafka实现Sink端的数据精确一次处理。

2023-11-12 22:09:00 236

原创 浅议Altas Hive Hook的运行机制

Atlas 通过自带的Hive Hook程序获取hive sql执行过程中的元数据变动。本文通过分析Hive Hook的相关代码来探究其运行机制。

2023-11-12 20:25:54 254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除