董可伦-CSDN博客

原创 Dinky 安装部署并配置提交 Flink Yarn 任务

Dinky 安装部署并配置提交 Flink Yarn 任务

2025-05-13 17:20:00 1164

原创记录 Flink jdbc、mysql-cdc 连接 mysql8 碰到的适配问题

记录 Flink jdbc、mysql-cdc 连接 mysql8 碰到的小问题

2025-04-29 16:15:23 1221

Ollama 是一个专注于本地化部署和运行大型语言模型（LLM）的工具，旨在让用户能够在自己的设备上高效地运行和微调模型。它由 Ollama 团队开发，这是一家独立的初创公司，由 Michael Chiang 和 Jeffrey Morgan 创立，总部位于加利福尼亚州帕洛阿尔托。，用户可以自由查看、修改和分发。跨平台支持：兼容 Windows、Linux、MacOS 系统。丰富模型库：提供 1700 + 大语言模型，如 Qwen、Llama 等，可在官网 model library 中直接下载使用。

2025-02-27 19:56:11 1347

原创 Spark 源码 | 脚本分析总结

最初是想学习一下Spark提交流程的源码，比如 Spark On Yarn 、Standalone。之前只是通过网上总结的文章大概了解整体的提交流程，但是每个文章描述的又不太一样，弄不清楚到底哪个说的准确，比如Client 和 CLuster 模式的区别，Driver到底是干啥的，是如何定义的，为了彻底弄清楚这些疑问，所以决定学习一下相关的源码。因为不管是服务启动还是应用程序启动，都是通过脚本提交的，所以我们先从分析脚本开始。

2025-02-10 16:29:02 1624

原创 Spark RPC 学习总结

本文从API层面学习总结Spark RPC,暂不涉及源码分析。

2025-01-15 15:50:30 1652 1

原创 Netty 入门学习

学习Spark源码绕不开通信，Spark通信是基于Netty实现的，所以先简单学习总结一下Netty。

2025-01-10 17:25:44 915

原创 log4j 单独设置某个类或者某个包的级别

注释掉dailyfile.Threshold的原因是 NotebookServer 没有单独设置 Appender,也就是使用rootLogger中的 dailyfile ，而 dailyfile 设置了 Threshold = INFO，指定了日志信息的最低输出级别，debug的日志级别高于info，所以不生效，需要去掉该配置。rootLogger是新的使用名称，对应Logger类， rootCategory是旧的使用名称，对应原来的Category类。指定日志信息的最低输出级别，默认为DEBUG。

2024-12-30 10:00:31 1278

原创 Hudi 源码 | 索引总结 - tag/tagLocation

接上篇文章和之前的总结的源码文章，本文总结源码 tag/tagLocation ，对应功能：根据索引信息判断记录是否存在，如果不存在，代表是新增数据，如果记录存在则代表是更新数据，需要找到并设置 currentLocation。tag/tagLocation ：根据索引信息判断记录是否存在，如果不存在，代表是新增数据，如果记录存在则代表是更新数据，需要找到并设置 currentLocation。tagLocation 会利用上篇文章讲的写到 parquet 文件中的最大值最小值和布隆索引。

2024-07-15 14:17:18 240

原创 Hudi 索引总结 - Parquet布隆过滤器写入过程

上篇文章提到：索引的逻辑主要是根据 parquet 文件中保存的索引信息，判断记录是否存在，如果不存在，代表是新增数据，如果记录存在则代表是更新数据，需要找到并设置 currentLocation。对于布隆索引来说，这里的索引信息其实是布隆过滤器，本篇文章主要是先总结布隆过滤器是如何保存到 parquet 文件中的（主要是源码调用逻辑）。

2024-07-10 10:09:10 338

原创 Hudi 写入流程（图）

主要为之前总结的源码文章补充流程图。总结一下整体流程。

2024-07-05 11:13:56 321

原创 Flink 重启策略和故障恢复策略

主要总结 Flink 重启策略。

2024-06-24 19:16:51 391

原创 Hudi extraMetadata 研究总结

研究总结 Hudi extraMetadata ,记录研究过程。主要目的是通过 extraMetadata 保存 source 表的 commitTime （checkpoint），来实现增量读Hudi表写Hudi表时，保存增量读状态的事务性，实现类似于流任务中的 exactly-once。

2024-06-13 19:33:37 419

原创 Hudi CLI 安装配置总结

上篇文章总结了Spark SQL Rollback, Hudi CLI 也能实现 Rollback，本文总结下 Hudi CLI 安装配置以及遇到的问题。

2024-06-07 16:46:51 324

原创 Hudi Spark Sql Procedures 回滚 Hudi 表数据

因为有 Hudi Rollback 的需求，所以单独总结 Hudi Spark Sql Procedures Rollback。

2024-06-04 15:47:02 436 2

原创记录一个 Hudi HBase 依赖冲突问题及解决方案

如题：记录一个 Hudi HBase 依赖冲突问题及解决方案。

2024-06-01 15:45:50 336

原创 Hudi Flink MOR 学习总结

之前很少用MOR表，现在来学习总结一下。首先总结一下 compaction 遇到的问题。

2024-05-28 19:07:11 566

原创 Spark Client 配置

记录Spark Client 配置，这里的 Spark Client 和 HDFS、YARN 不在一个节点，只是一个单节点的 Spark Client，需要能连接其他节点的大数据集群的 Hive 和能提交到Yarn。

2024-05-18 15:23:51 299

原创 Linux 安裝 rpm包

Linux 安裝 rpm包。

2024-05-10 09:43:04 448

原创 Hive 表添加列（新增字段）

记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型，如ORC不存在该问题，而对于 Parquet、Text ，只有在已有分区下插入数据是，新增字段查询才为 NULL, 新增的分区正常。

2024-04-23 07:00:00 4503

原创集群管理命令总结

clush和pssh，这俩命令都可以在多台服务器上并发执行相同命令，其中个人比较推荐clush，因为感觉clush比较好用，本文来总结一下clush和pssh的安装配置和使用。clush和pssh的安装和使用方式，给出部分使用示例，并记录了 Python2 和 Python3 分别遇到的问题以及解决过程。

2024-04-15 07:00:00 2767

原创 QQ 截图工具独立版安装使用

之前截图一直使用的QQ截图，相比于微信截图，QQ截图还支持长截图，总体来说，QQ截图是我使用过的最好的截图工具。但是现在公司不让用微信、QQ、钉钉等通讯软件，要求使用公司自研的通讯软件，这样就不能使用QQ截图了。尝试使用Windows10自带的截图（win+shift+s）和公司自研通讯软件中的截图功能都不好使，于是网上查了一下，发现有 QQ 截图工具独立版，不需要安装和登录QQ，就可以使用QQ截图，功能和使用方式（快捷键）都一样。

2024-03-18 10:52:57 5765 9

原创 Spark Standalone 集群配置

平时工作中主要用 YARN 模式，最近进行TPC测试用到了 Standalone 模式，便记录总结一下 Standalone 集群相关的配置。

2024-02-07 16:35:51 625

原创 Linux 批量添加 known_hosts

我们在做完linux ssh 免密登录后，通常会执行一些自动化任务（比如启动Spark集群），也就是需要ssh到每台节点执行相同命令。但是有一个问题就是如果 known_hosts 文件中不存在这个ip的话，在第一次连接时会弹出确认公钥的提示，需要手动输入 yes，才能继续往下进行。输入yes 后会将公钥添加到 .ssh/known_hosts 中，下次连接时就不需要再次确认了。但是如果节点比较多的话，假如有100个节点，那么我们需要手动输入100次 yes 比较麻烦。

2024-01-17 09:05:35 2557

原创仿宋-GB2312字体

重新打开Word正常情况下字体就有了。如果此时在Word文档内还没出现这个字体的话，大家可以重启电脑再查看一下。

2024-01-09 08:59:57 3950 3

原创 Flink 日志总结

总结一下 Flink 项目代码打印日志的配置。

2023-12-25 08:22:11 1645

原创 Flink源码分析 | 读取HBase配置

上面文章中总结了Flink 获取 HBase 配置的逻辑和优先级，但是并没有对源码进行分析，本文主要是补充这一部分的源码分析。

2023-12-18 19:51:32 1226

原创 Flink 读写 HBase 总结

总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置，解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常，学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级，但是没有详细的分析源码中的逻辑，可能会在后面的文章中补充相关的源码分析~

2023-12-09 09:45:56 1628

转载 Flink 源码阅读笔记（3）- Flink 底层RPC框架分析

对于Flink中各个组件（JobMaster、TaskManager、Dispatcher等），其底层RPC框架基于Akka实现，本文着重分析Flink中的Rpc框架实现机制及梳理其通信流程。由于Flink底层Rpc是基于Akka实现，我们先了解下Akka的基本使用。Akka是一个开发并发、容错和可伸缩应用的框架。它是的一个实现，和Erlang的并发模型很像。在Actor模型中，所有的实体被认为是独立的actors。actors和其他actors通过发送异步消息通信。Actor模型的强大来自于异步。

2023-12-09 09:40:57 117

原创 Hudi Flink SQL源码调试学习（二）- Transformation/StreamOperator总结 - StreamGraph和JobGraph的生成过程

和上篇文章Hudi Flink SQL源码调试学习（一）一样：本着学习hudi-flink源码的目的，利用之前总结的文章中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。本文主要总结 Flink 的, 写Hudi与的关系以及Hudi有哪些自定义的，还有Flink的四层执行图以及和JobGraph的生成构建过程。DummySink。

2023-08-29 09:10:53 297

转载 Flink 源码阅读笔记（1）- StreamGraph 的生成

Flink 源码阅读笔记（1）- StreamGraph 的生成StreamGraph 的生成

2023-08-25 15:41:58 205

原创记录几个Hudi Flink使用问题及解决方法

如题，记录几个Hudi Flink使用问题，学习和使用Hudi Flink有一段时间，虽然目前用的还不够深入，但是目前也遇到了几个问题，现在将遇到的这几个问题以及解决方式记录一下。

2023-08-21 16:52:59 929

原创 Hudi Flink SQL源码调试学习（一）

本着学习hudi-flink源码的目的，利用之前总结的文章Hudi Flink SQL代码示例及本地调试中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。本文主要简单记录了自己调试 Hudi Flink SQL 源码的过程，并没有对源码进行深入的分析（自己水平也不够）。主要目的是为了弄清楚从Table API的入口到返回的主要代码步骤以及在哪里调用的的的方法体以进行后面的写Hudi逻辑，这样便于后面对Hudi源码的分析和学习。本文新学习知识点：函数式接口以及对应的 Lambda 表达式的实现。

2023-07-31 20:00:05 1145

flink.tar.gz

hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata

QQ截图工具独立版-不需要安装QQ

flink-sql-connector-hbase-2.2-1.15.4.jar

Spark SQL增量查询Hudi表-Spark3.1.2-jar包

空空如也