自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(189)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive 集群安装配置

Hive 集群安装配置

2025-11-18 09:10:11 752

原创 Hadoop HA 集群安装配置

Hadoop HA 集群安装配置

2025-09-24 16:14:06 799

原创 异常解决记录 | Yarn NodeManager 注册异常

异常解决记录 | Yarn NodeManager 注册异常

2025-09-20 14:04:28 1119

原创 PolarDB-for-PostgreSQL CDC 总结

PolarDB-for-PostgreSQL CDC 总结

2025-09-17 15:12:58 1200

原创 PolarDB-for-PostgreSQL 安装配置

PolarDB-for-PostgreSQL 安装配置

2025-09-13 10:57:28 1023

原创 ZooKeeper 安装配置

ZooKeeper 安装配置

2025-08-29 10:04:08 745

原创 Conda 安装配置及常用命令

Conda 安装配置及常用命令

2025-08-27 08:54:30 1368

原创 Minio 分布式集群安装配置

Minio 分布式集群安装配置

2025-08-07 19:35:32 790

原创 Yarn Application 日志总结

Yarn Application 日志总结

2025-08-05 15:42:32 1091

原创 Flink Savepoints 总结

Flink Savepoints 总结

2025-07-01 09:59:57 785

原创 Flink Oracle CDC 总结

Flink Oracle CDC 总结

2025-06-26 08:57:31 912

原创 Flink On Yarn HA 重启次数

Flink On Yarn HA 重启次数

2025-06-19 16:17:54 692

原创 Docker 安装 Oracle 11G

Docker 安装 Oracle 11G

2025-06-17 16:14:25 987

原创 Docker 安装 Oracle 12C

Docker 安装 Oracle 12C

2025-06-12 17:48:55 1625

原创 Dinky 安装部署并配置提交 Flink Yarn 任务

Dinky 安装部署并配置提交 Flink Yarn 任务

2025-05-13 17:20:00 1612

原创 记录 Flink jdbc、mysql-cdc 连接 mysql8 碰到的适配问题

记录 Flink jdbc、mysql-cdc 连接 mysql8 碰到的小问题

2025-04-29 16:15:23 1388

原创 Flink HA 总结

总结 Flink HA。

2025-04-28 15:29:57 1371

原创 Flink 源码编译

Flink 源码编译

2025-04-24 14:26:58 1464

原创 Ollama 简介及安装部署

Ollama 是一个专注于本地化部署和运行大型语言模型(LLM)的工具,旨在让用户能够在自己的设备上高效地运行和微调模型。它由 Ollama 团队开发,这是一家独立的初创公司,由 Michael Chiang 和 Jeffrey Morgan 创立,总部位于加利福尼亚州帕洛阿尔托。,用户可以自由查看、修改和分发。跨平台支持:兼容 Windows、Linux、MacOS 系统。丰富模型库:提供 1700 + 大语言模型,如 Qwen、Llama 等,可在官网 model library 中直接下载使用。

2025-02-27 19:56:11 1744

原创 Spark 源码 | 脚本分析总结

最初是想学习一下Spark提交流程的源码,比如 Spark On Yarn 、Standalone。之前只是通过网上总结的文章大概了解整体的提交流程,但是每个文章描述的又不太一样,弄不清楚到底哪个说的准确,比如Client 和 CLuster 模式的区别,Driver到底是干啥的,是如何定义的,为了彻底弄清楚这些疑问,所以决定学习一下相关的源码。因为不管是服务启动还是应用程序启动,都是通过脚本提交的,所以我们先从分析脚本开始。

2025-02-10 16:29:02 1855

原创 Spark RPC 学习总结

本文从API层面学习总结Spark RPC,暂不涉及源码分析。

2025-01-15 15:50:30 1760 1

原创 Netty 入门学习

学习Spark源码绕不开通信,Spark通信是基于Netty实现的,所以先简单学习总结一下Netty。

2025-01-10 17:25:44 969

原创 log4j 单独设置某个类或者某个包的级别

注释掉dailyfile.Threshold的原因是 NotebookServer 没有单独设置 Appender,也就是使用rootLogger中的 dailyfile ,而 dailyfile 设置了 Threshold = INFO,指定了日志信息的最低输出级别,debug的日志级别高于info,所以不生效,需要去掉该配置。rootLogger是新的使用名称,对应Logger类, rootCategory是旧的使用名称,对应原来的Category类。指定日志信息的最低输出级别,默认为DEBUG。

2024-12-30 10:00:31 1431

原创 Hudi 源码 | 索引总结 - tag/tagLocation

接上篇文章和之前的总结的源码文章,本文总结源码 tag/tagLocation ,对应功能:根据索引信息判断记录是否存在,如果不存在,代表是新增数据,如果记录存在则代表是更新数据,需要找到并设置 currentLocation。tag/tagLocation :根据索引信息判断记录是否存在,如果不存在,代表是新增数据,如果记录存在则代表是更新数据,需要找到并设置 currentLocation。tagLocation 会利用上篇文章讲的写到 parquet 文件中的 最大值最小值和布隆索引。

2024-07-15 14:17:18 373

原创 Hudi 索引总结 - Parquet布隆过滤器写入过程

上篇文章提到 :索引的逻辑主要是根据 parquet 文件中保存的索引信息,判断记录是否存在,如果不存在,代表是新增数据,如果记录存在则代表是更新数据,需要找到并设置 currentLocation。对于布隆索引来说,这里的索引信息其实是布隆过滤器,本篇文章主要是先总结布隆过滤器是如何保存到 parquet 文件中的(主要是源码调用逻辑)。

2024-07-10 10:09:10 489

原创 Hudi 写入流程(图)

主要为之前总结的源码文章补充流程图。总结一下整体流程。

2024-07-05 11:13:56 459

原创 Flink 重启策略和故障恢复策略

主要总结 Flink 重启策略。

2024-06-24 19:16:51 553

原创 Hudi extraMetadata 研究总结

研究总结 Hudi extraMetadata ,记录研究过程。主要目的是通过 extraMetadata 保存 source 表的 commitTime (checkpoint), 来实现增量读Hudi表写Hudi表时,保存增量读状态的事务性,实现类似于流任务中的 exactly-once。

2024-06-13 19:33:37 562

原创 Hudi CLI 安装配置总结

上篇文章总结了Spark SQL Rollback, Hudi CLI 也能实现 Rollback,本文总结下 Hudi CLI 安装配置以及遇到的问题。

2024-06-07 16:46:51 491

原创 Hudi Spark Sql Procedures 回滚 Hudi 表数据

因为有 Hudi Rollback 的需求,所以单独总结 Hudi Spark Sql Procedures Rollback。

2024-06-04 15:47:02 611 2

原创 记录一个 Hudi HBase 依赖冲突问题及解决方案

如题:记录一个 Hudi HBase 依赖冲突问题及解决方案。

2024-06-01 15:45:50 439

原创 Hudi Flink MOR 学习总结

之前很少用MOR表,现在来学习总结一下。首先总结一下 compaction 遇到的问题。

2024-05-28 19:07:11 724

原创 Spark Client 配置

记录Spark Client 配置,这里的 Spark Client 和 HDFS、YARN 不在一个节点,只是一个单节点的 Spark Client,需要能连接其他节点的大数据集群的 Hive 和 能提交到Yarn。

2024-05-18 15:23:51 462

原创 Linux 安裝 rpm包

Linux 安裝 rpm包。

2024-05-10 09:43:04 493

原创 Hive 表添加列(新增字段)

记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型,如ORC不存在该问题,而对于 Parquet、Text ,只有在已有分区下插入数据是,新增字段查询才为 NULL, 新增的分区正常。

2024-04-23 07:00:00 4985

原创 集群管理命令总结

clush和pssh,这俩命令都可以在多台服务器上并发执行相同命令,其中个人比较推荐clush,因为感觉clush比较好用,本文来总结一下clush和pssh的安装配置和使用。clush和pssh的安装和使用方式,给出部分使用示例,并记录了 Python2 和 Python3 分别遇到的问题以及解决过程。

2024-04-15 07:00:00 3322

原创 QQ 截图工具独立版安装使用

之前截图一直使用的QQ截图,相比于微信截图,QQ截图还支持长截图,总体来说,QQ截图是我使用过的最好的截图工具。但是现在公司不让用微信、QQ、钉钉等通讯软件,要求使用公司自研的通讯软件,这样就不能使用QQ截图了。尝试使用Windows10自带的截图(win+shift+s)和 公司自研通讯软件中的截图功能都不好使,于是网上查了一下,发现有 QQ 截图工具独立版,不需要安装和登录QQ,就可以使用QQ截图,功能和使用方式(快捷键)都一样。

2024-03-18 10:52:57 7802 14

原创 Spark Standalone 集群配置

平时工作中主要用 YARN 模式,最近进行TPC测试用到了 Standalone 模式,便记录总结一下 Standalone 集群相关的配置。

2024-02-07 16:35:51 774

原创 Linux 批量添加 known_hosts

我们在做完linux ssh 免密登录后,通常会执行一些自动化任务(比如启动Spark集群),也就是需要ssh到每台节点执行相同命令。但是有一个问题就是如果 known_hosts 文件中不存在这个ip的话,在第一次连接时会弹出确认公钥的提示,需要手动输入 yes,才能继续往下进行。输入yes 后会将公钥添加到 .ssh/known_hosts 中,下次连接时就不需要再次确认了。但是如果节点比较多的话,假如有100个节点,那么我们需要手动输入100次 yes 比较麻烦。

2024-01-17 09:05:35 2891

原创 仿宋-GB2312字体

重新打开Word正常情况下字体就有了。如果此时在Word文档内还没出现这个字体的话,大家可以重启电脑再查看一下。

2024-01-09 08:59:57 4790 3

flink.tar.gz

flink

2024-07-20

hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata

hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata

2024-06-13

QQ截图工具独立版-不需要安装QQ

不安装QQ、不登录QQ即可使用QQ截图工具 使用方法:1、下载文件之后先解压; 2、运行Init.bat 3、桌面会有一个图标,双击运行可以启动QQ截图; 4、在右下角拖盘有可以设置的地方

2024-02-18

flink-sql-connector-hbase-2.2-1.15.4.jar

flink 读写 hbase 添加参数 hbase.conf.dir,支持参数自定义hbase-site.xml

2023-12-08

Spark SQL增量查询Hudi表-Spark3.1.2-jar包

通过修改源码,支持set方式增量查询Hudi包

2022-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除