董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Flink 重启策略和故障恢复策略
主要总结 Flink 重启策略。原创 2024-06-24 19:16:51 · 317 阅读 · 0 评论 -
Hudi Flink MOR 学习总结
之前很少用MOR表,现在来学习总结一下。首先总结一下 compaction 遇到的问题。原创 2024-05-28 19:07:11 · 482 阅读 · 0 评论 -
Flink 日志总结
总结一下 Flink 项目代码打印日志的配置。原创 2023-12-25 08:22:11 · 1529 阅读 · 0 评论 -
Flink源码分析 | 读取HBase配置
上面文章中总结了Flink 获取 HBase 配置的逻辑和优先级,但是并没有对源码进行分析,本文主要是补充这一部分的源码分析。原创 2023-12-18 19:51:32 · 1165 阅读 · 0 评论 -
Flink 读写 HBase 总结
总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置,解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常,学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级,但是没有详细的分析源码中的逻辑,可能会在后面的文章中补充相关的源码分析~原创 2023-12-09 09:45:56 · 1560 阅读 · 0 评论 -
Hudi Flink SQL源码调试学习(二)- Transformation/StreamOperator总结 - StreamGraph和JobGraph的生成过程
和上篇文章Hudi Flink SQL源码调试学习(一)一样:本着学习hudi-flink源码的目的,利用之前总结的文章中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。本文主要总结 Flink 的, 写Hudi与的关系以及Hudi有哪些自定义的,还有Flink的四层执行图以及和JobGraph的生成构建过程。DummySink。原创 2023-08-29 09:10:53 · 242 阅读 · 0 评论 -
Flink 源码阅读笔记(1)- StreamGraph 的生成
Flink 源码阅读笔记(1)- StreamGraph 的生成StreamGraph 的生成转载 2023-08-25 15:41:58 · 177 阅读 · 0 评论 -
记录几个Hudi Flink使用问题及解决方法
如题,记录几个Hudi Flink使用问题,学习和使用Hudi Flink有一段时间,虽然目前用的还不够深入,但是目前也遇到了几个问题,现在将遇到的这几个问题以及解决方式记录一下。原创 2023-08-21 16:52:59 · 866 阅读 · 0 评论 -
Hudi Flink SQL源码调试学习(一)
本着学习hudi-flink源码的目的,利用之前总结的文章Hudi Flink SQL代码示例及本地调试中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。本文主要简单记录了自己调试 Hudi Flink SQL 源码的过程,并没有对源码进行深入的分析(自己水平也不够)。主要目的是为了弄清楚从Table API的入口到返回的主要代码步骤以及在哪里调用的的的方法体以进行后面的写Hudi逻辑,这样便于后面对Hudi源码的分析和学习。本文新学习知识点:函数式接口以及对应的 Lambda 表达式的实现。原创 2023-07-31 20:00:05 · 1086 阅读 · 0 评论 -
Flink 读写Kafka总结
总结Flink读写Kafka。原创 2023-07-05 14:59:15 · 2070 阅读 · 0 评论 -
Hudi Flink SQL代码示例及本地调试
之前在Flink Hudi DataStream API代码示例中总结了Hudi Flink DataStream API的代码及本地调试,并且在文中提到其实大家用Table API更多一些,但是我感觉Table API调试源码可能会比较难一点,因为可能会涉及到SQL解析,不清楚Table API的入口在哪里。但是在我总结的上篇文章Flink用户自定义连接器(Table API Connectors)学习总结。原创 2023-05-30 08:47:29 · 1182 阅读 · 2 评论 -
Flink用户自定义连接器(Table API Connectors)学习总结
结合官网文档和自定义实现一个,来学习总结Flink用户自定义连接器(Table API Connectors)。实心箭头展示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。需要实现 org.apache.flink.table.factories.DynamicTableSourceFactory 接口完成一个工厂类,来生产 DynamicTableSource 类。. . .原创 2023-05-24 11:36:44 · 2181 阅读 · 9 评论 -
Flink Hudi DataStream API代码示例
总结Flink通过DataStream API读写Hudi Demo示例,主要是自己备忘用。最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉,而有些需求是基于Flink代码实现的,所以需要学习总结一下。仅为了实现用代码读写Hudi的需求,其实有两种方式,一种是在代码里通过Flink SQL API,也就是代码中执行Flink SQL,这种方式其实和通过SQL实现差不多,另一种方式是通过DataStream API实现。原创 2023-05-22 10:47:19 · 1513 阅读 · 5 评论 -
Flink MySQL CDC 使用总结
学习总结Flink MySQL CDC,主要目的是同步MySQL数据至其他数据源如Hudi、MySQL等,本文主要以 MySQL2Hudi、MySQL2MySQL两个场景进行示例验证。原创 2023-04-03 19:15:12 · 3687 阅读 · 4 评论 -
Flink SQL Checkpoint 学习总结
学习总结Flink SQL Checkpoint的使用,主要目的是为了验证Flink SQL流式任务挂掉后,重启时还可以继续从上次的运行状态恢复。对于flink sql读取mysql,设置checkpoint恢复不生效(不是flink cdc)checkpoint 一个时间间隔内只有一个批次,这样才能保证eos,时间间隔大小影响写入性能。原创 2023-03-03 14:31:16 · 5492 阅读 · 0 评论 -
Flink SQL增量查询Hudi表
前面总结了Spark SQL增量查询Hudi表和Hive增量查询Hudi表。最近项目上也有Flink SQL增量查询Hudi表的需求,正好学习总结一下。地址:https://hudi.apache.org/cn/docs/querying_data#incremental-query用show_commits看一下有哪些commits(这里查询用的是Hudi的master,因为show_commits是在0.11.0版本开始支持的,也可以通过使用hadoop命令查看.hoodie文件夹下的.commit文原创 2022-12-08 07:00:00 · 3380 阅读 · 41 评论 -
Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)
上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过Hudi HMS Catalog读写Hudi并同步Hive表,这里的Hudi HMS Catalog实际上就是通过上篇文章最后提到的。原创 2022-11-03 07:00:00 · 4081 阅读 · 76 评论 -
Flink SQL操作Hudi并同步Hive使用总结
记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive,以及遇到的问题及解决过程。关于Flink SQL客户端如何使用可以参考:Flink SQL 客户端查询Hive配置及问题解决Flink 1.14.3Hudi 0.12.0/0.12.1本文采用Flink yarn-session模式,不会的可以参考之前的文章。下载地址:https://repo1.maven.org/maven2/org/apache/hudi/hudi-flink1.14-bundle/0.12.1/hudi-fli原创 2022-11-01 07:00:00 · 7462 阅读 · 129 评论 -
Flink 读写 Ceph S3入门学习总结
Flink 读写 Ceph S3入门学习总结原创 2022-10-01 14:19:12 · 1755 阅读 · 4 评论 -
Flink SQL 客户端查询Hive配置及问题解决
记录博主第一次使用Flink SQL查询Hive的配置以及问题解决过程flink-1.14.3,这里使用kyuubi1.5.2自带的FlinkHDP环境,Hadoop、Hive等已经安装配置好export HADOOP_CLASSPATH=可以添加在比如/ect/profile里,这样等于修改全局的环境,如果想只对Flink生效,可以添加在bin/config.sh文件里jar包 下载地址:https://repo1.maven.org/maven2/org/apache/flink/flink-con原创 2022-08-27 15:50:32 · 1987 阅读 · 1 评论
分享