实时即未来
码龄4年
关注
提问 私信
  • 博客:94,147
    94,147
    总访问量
  • 87
    原创
  • 56,254
    排名
  • 228
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2021-04-16
博客简介:

m0_57320261的博客

查看详细资料
  • 原力等级
    当前等级
    4
    当前总分
    856
    当月
    3
个人成就
  • 获得244次点赞
  • 内容获得3次评论
  • 获得330次收藏
  • 代码片获得238次分享
创作历程
  • 17篇
    2024年
  • 9篇
    2023年
  • 34篇
    2022年
  • 28篇
    2021年
成就勋章
TA的专栏
  • hbase
    1篇
  • scala
    2篇
  • spark
    3篇
兴趣领域 设置
  • Java
    java
  • 开发工具
    gitide
  • 大数据
    oraclemysqlhbasehadoophivezookeepersparkflumekafkaflink数据仓库etl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

HBase批量写入优化

2.数据缓冲:在进行批量写入时,可以使用缓冲区来存储数据。1.批量写入操作:使用HBasef的批量写入操作可以显著提高性能。这样可以减少网络通信开销和减少多次写入操作的开销。3.批量操作参数调优:在进行批量写入时,可以调整一些参数来优化性能。4.预分区和预分配Region:在设计HBase表时,可以进行预分区和预分配Region。.将数据均匀分布在多个Region中,可以提高写入性能和负载均衡。以上是一些常见的HBas批量写入性能优化的方法,根据具体的场景和需求,可以选择适合的方法进行优化。
原创
发布博客 2024.09.30 ·
560 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

谈谈Flink消费kafka的偏移量

Filnk checkpointing开始时就进入到pre-commit阶段,具体来说,一旦checkpoint开始,Flink的JobManager向输入流中写入一个checkpoint barrier将流中所有消息分隔成属于本次checkpoint的消息以及属于下次checkpoint的消息,barrier也会在操作算子间流转,对于每个operator来说,该barrier会触发operator的State Backend来为当前的operator来打快照。
原创
发布博客 2024.06.24 ·
1409 阅读 ·
23 点赞 ·
0 评论 ·
12 收藏

Hive函数汇总

一、关系运算1. 等值比较: =2. 不等值比较: 3.小于比较: =7. 空值判断: IS NULL8. 非空判断: IS NOTNULL9. LIKE比较: LIKE10. JAVA的LIKE操作: RLIKE11. REGEXP操作: REGEXP二、数学运算1. 加法操作: +2. 减法操作: -3. 乘法操作: *4. 除法操作: /5. 取余操作: %6. 位与操作: &
原创
发布博客 2024.06.20 ·
498 阅读 ·
25 点赞 ·
0 评论 ·
11 收藏

flink cdc,读取datetime类型

需要注意的是,如果您使用的是Flink 1.13或以上版本,可以直接使用Flink的内置Debezium插件来实现CDC任务,无需安装其他插件。Flink CDC读取MySQL的datetime类型时会转换为时间戳的问题,可以通过在Flink CDC任务中添加相应的转换器来解决。- 使用 Flink DataStream API:如果你更喜欢使用 Flink DataStream API,可以通过创建 CDCSourceFunction 并配置相应的参数来创建 Flink CDC 数据源。
原创
发布博客 2024.05.10 ·
1581 阅读 ·
13 点赞 ·
1 评论 ·
21 收藏

shell脚本echo打印错位

Unix系统里,每行结尾只有“”,即“
”,Windows系统里面,每行结尾是“”,即“
\r”,Mac系统里,每行结尾是“”。一个直接后果是,Unix/Mac系统下的文件在Windows里打开的话,所有文字会变成一行,而Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会多出一个^M符号。因此,\r就是return回到本行行首,这就会把这一行以前的输出覆盖掉。经过测试,发现获取到的返回值是没问题的,但可能带了某些不可见的字符。
原创
发布博客 2024.04.11 ·
1012 阅读 ·
20 点赞 ·
0 评论 ·
20 收藏

Hudi小文件压缩

为了避免这种情况的发生,flink离线压缩hudi表每次只压缩一个commit,这样可以保证每个commit的数据都被完整地压缩,同时也减小了故障发生的概率,提高了数据的可靠性。此外,这种方式还可以实现增量压缩,只压缩新增或者修改的数据,而不需要重新压缩整个数据集,可以提高压缩效率。当我们压缩多个commit时,会先将这些commit的数据合并到一个新的commit里面,然后再进行压缩,但是如果在合并的过程中发生了故障,就有可能导致合并后的数据丢失,这样就会导致数据不完整或者出现错误。
原创
发布博客 2024.03.07 ·
1095 阅读 ·
22 点赞 ·
0 评论 ·
6 收藏

Hudi配置参数优化

3.数据去重:一批增量数据中可能会有重复的数据,Hudi会根据主键对数据进行去重避免重复数据写入Hudi 表。4.数据fileId位置信息获取:在修改记录中可以根据索引获取当前记录所属文件的fileid,在数据合并时需要知道数据update操作向那个fileId文件写入新的快照文件。8.hive元数据同步:hive 的元素数据同步这个步骤需要配置非必需操作,主要是对于hive 和presto 等查询引擎,需要依赖hive 元数据才能进行查询,所以hive元数据同步就是构造外表提供查询。
原创
发布博客 2024.02.28 ·
791 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

hudi系列- mor表写过程

每个分区下的桶数量为是bucket_assigner算子的并行度,每个桶始终由多个assigner中固定的一个生成和分配,桶(fileId)与assigner之间存在映射关系,通过fileId可以判断是否。基于状态索引的tagLocation过程,即确定第条记录应该写到哪个fileId。这个过程做了小文件优化,避免产生过多的小文件(重用fileId),判断文件。参考WriteProfile</id1,parition1>如何为记录分配Location?该assigner.
原创
发布博客 2024.02.27 ·
994 阅读 ·
25 点赞 ·
0 评论 ·
19 收藏

flink - sink - hive

hive的依赖,此依赖应该放在flink-shaded-hadoop后面,让工程优先访问flink-shaded-hadoop的依赖。dataStream转为flink table,再通过hive catalog写入到hive表中。以下依赖均可以放到flink lib中,然后在pom中声明为provided。没有hadoop环境时可以用此依赖代替。flink对hive的核心依赖。
原创
发布博客 2024.02.27 ·
650 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

Hudi程序导致集群RPC偏高问题分析

即根据提交的次数,默认为1,可以通过设置参数hoodie.clean.max.commits​进行修改,在flink job的每次checkpoint时都会进行触发策略的条件判断,所以在两次chekpoint之间发生过1次或n次提交,都会触发清理动作。清理旧文件需要考虑数据查询的情况,有些长查询会占用着旧版本的文件,需要设置合适的清理策略来保留一定数量的commit或者文件版本,以提高系统的容错性。清理逻辑的流程,主要包含有三个步骤:生成清理计划、刷新ActiveTimeline、执行清理计划。
原创
发布博客 2024.02.22 ·
844 阅读 ·
18 点赞 ·
0 评论 ·
15 收藏

数据湖Paimon入门指南

如果用户建表时指定'merge-engine' = 'partial-update',那么就会使用部分更新表引擎,可以做到多个 Flink 流任务去更新同一张表,每条流任务只更新一张表的部分列,最终实现一行完整的数据的更新,对于需要拉宽表的业务场景,partial-update 非常适合此场景,而且构建宽表的操作也相对简单。这种方式的成本相对较高,同时官方不建议这样使用,因为下游任务在 State 中存储一份全量的数据,即每条数据以及其变更记录都需要保存在状态中。流式查询将不断产生最新的更改。
原创
发布博客 2024.02.04 ·
1981 阅读 ·
9 点赞 ·
0 评论 ·
13 收藏

FlinkCDC中文乱码问题

flink-conf.yaml文件中添加两个参数。注意添加位置在最后,防止被覆盖。
原创
发布博客 2024.01.31 ·
421 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink集成Hive之Hive Catalog

流程流程:Flink消费Kafka,逻辑处理后将实时流转换为表视图,利用HiveCataLog创建Hive表,将实时流 表insert进Hive,注意分区时间字段需要为 yyyy-MM-dd形式,否则抛出异常:java.time.format.DateTimeParseException: Text '20240111' could not be parsed。
原创
发布博客 2024.01.12 ·
1839 阅读 ·
17 点赞 ·
0 评论 ·
20 收藏

Canal采集配置

2、common参数定义,比如可以将instance.properties的公用参数,抽取放置到这里,这样每个instance启动的时候就可以共享. 【instance.properties配置定义优先级高于canal.properties】aliyun账号的ak信息 (如果不需要在本地binlog超过18小时被清理后自动下载oss上的binlog,可以忽略该值)2、instance.properties (instance级别的配置文件,每个instance一份)是否开启binlog并行解析模式。
原创
发布博客 2024.01.10 ·
979 阅读 ·
19 点赞 ·
0 评论 ·
23 收藏

FlinkOnYarn 监控 flink任务

通俗的说就是一个能够接受json,处理json,输出json的程序,反正很好用。获取线运行job任务,记录到日志文件。这里shell脚本也只记录,flink-on-yarn 这种部署方式任务监控。只需要监控实时yarn 任务有没有处于RUNNING,达到监控的目的。Flink任务一般为实时不断运行的任务,如果没有任务监控,Flink任务监控(基于API接口编写shell脚本)这里通过调用API接口方式来获取参数,实现任务监控。shell脚本水平有限,大家多多谅解,欢迎指导。获取这个任务单个信息。
原创
发布博客 2024.01.08 ·
1454 阅读 ·
7 点赞 ·
0 评论 ·
10 收藏

FlinkRestAPI

如果输出结果为空,则说明 Flink 客户端没有安装在系统路径中。在这种情况下,您可以通过设置。which flink 找到Flink客户端地址。环境变量来指定 Flink 客户端的路径。
原创
发布博客 2024.01.08 ·
927 阅读 ·
9 点赞 ·
0 评论 ·
9 收藏

FlinkSQL处理Canal-JSON数据

在正常的操作环境下,Canal能够以exactly-once的语义投递每条变更事件,Flink能够正常消费Canal产生的变更事件。此时,Canal可能会投递重复的变更事件到Kafka中,当Flink从Kafka中消费的时候就会得到重复的事件,可能导致Flink query的运行得到错误的结果或者非预期的异常。ISO-8601:解析yyyy-MM-ddTHH:mm:ss.s{precision}格式的输入时间戳,例如2020-12-30T12:13:14.123,并以相同的格式输出时间戳。
原创
发布博客 2024.01.04 ·
1713 阅读 ·
21 点赞 ·
0 评论 ·
25 收藏

Hudi介绍

在数据不断写入 Hudi 期间,Hudi 会不断生成 commit、deltacommit、clean 等 Instant 记录每一次操作类型、状态及详细的元数据,这些 Instant 最终都会存到 .hoodie 元数据目录下,为了避免元数据文件数量过多,ActiveTimeline 越来越长,需要对比较久远的操作进行归档(archive),将这部分操作移到 .hoodie/archive 目录下,单独形成一个 ArchivedTimeline。Clean文件的存在可以确保数据的清理操作被记录和跟踪。
原创
发布博客 2023.12.16 ·
333 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink-Hudi连接器

hudi连接器_实时计算Flink版-阿里云帮助中心 (aliyun.com)
原创
发布博客 2023.10.24 ·
114 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的文件合并

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive。3.stg 和 ods 的 tb_bu_dc_monitor_day 是外部表,其他层的表都是内部表;/_SCRATCH0 这些目录是sqoop 把mysql数据导入hive时生成的临时目录,可以删除。使用hive concatenate (外部表不可用,内部表可用,orc可用,分桶表不可用)1.stg层是把flink应用程序写入的数据load进入的;
原创
发布博客 2023.10.11 ·
714 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多