阿年的博客

当你的才华还撑不起你的野心时，就应该静下心来学习;当你的能力还驾驭不了你的目标时，就应该沉下心来历练。梦想不是浮躁，而是沉淀和积累。

原创 FlinkCDC_达梦JDBC_MySQL同步到达梦

本文介绍了使用Flink SQL实现MySQL到达梦数据库的实时同步方案。通过配置SQL脚本设置Checkpoint机制确保数据一致性，利用MySQL CDC连接器捕获源库变更，JDBC连接器写入目标库。测试验证了数据同步的准确性，并通过Task Manager故障模拟演示了Checkpoint机制下的自动恢复能力。方案采用RocksDB状态后端支持增量Checkpoint，有效降低系统负载。同步过程包含完整的配置参数和操作步骤，为异构数据库实时同步提供了可行方案。

2026-02-17 11:00:00 331 1

原创 FlinkCDC_达梦CDC_FlinkSQLAPI打jar包的方式

本文介绍了使用Flink SQL API实现达梦数据库(DM)到MySQL的数据同步方案。通过配置Flink检查点机制确保数据一致性，创建两个表环境分别连接源数据库(达梦)和目标数据库(MySQL)。核心代码展示了如何定义CDC源表(TEST_SOURCE)和JDBC目标表(TEST_SINK)，并执行INSERT语句实现实时数据同步。该方案支持精确一次语义(EXACTLY_ONCE)的数据传输，适用于需要异构数据库间实时数据迁移的场景。

2026-02-16 11:00:00 863

原创 FlinkCDC_达梦CDC_SQL方式

本文介绍了使用Flink CDC实现达梦数据库(DM)到MySQL数据同步的详细步骤。首先准备所需jar包并放入Flink目录，启动Flink集群后编写SQL脚本定义源表(达梦)和目标表(MySQL)的连接配置。通过SQL客户端提交任务后，可在Flink Web界面监控任务运行状态。最后测试验证了在达梦源表进行增删改操作时，MySQL目标表能实时同步数据变化。整个流程实现了从达梦到MySQL的实时数据同步功能。

2026-02-15 11:15:00 378

原创 FlinkCDC_MySQL同步案例

本文详细介绍了Flink集群的搭建过程及MySQL-CDC实时同步的实现。首先通过配置config.yaml、masters和workers文件搭建Flink集群，然后添加必要的MySQL驱动jar包。接着创建源表和目标表，编写同步脚本实现MySQL到MySQL的数据实时同步。通过sql-client提交任务后，可在Web界面监控执行状态，测试验证了源表数据变更能实时同步到目标表。整个过程涵盖了从集群部署到数据同步的完整实现步骤。

2026-02-14 11:15:00 1026

原创二、FlinkCDC-DataStream_状态后端

本文介绍了Flink CDC实现MySQL数据变更捕获的实践过程，重点演示了checkpoint机制的应用。通过配置MySqlSource的initial启动模式，结合5秒间隔的checkpoint设置（存储于HDFS），实现了断点续传功能。实验步骤包括：启动Hadoop和Flink集群、提交作业、手动触发checkpoint、停止任务后修改MySQL数据，最后从保存点恢复任务并验证增量数据捕获。文中提供了完整示例代码和YARN部署方式，并展示了控制台日志输出效果，成功验证了Flink CDC在故障恢复后能

2026-02-11 11:00:00 1511

原创三、FlinkCDC-SQL

本文介绍了使用Flink CDC实现MySQL数据变更捕获的配置方法。主要内容包括：1）开启MySQL的binlog功能，配置server-id、binlog文件名和格式；2）Maven项目引入Flink相关依赖，包括flink-connector-mysql-cdc等组件；3）Java代码示例，展示如何通过StreamTableEnvironment创建CDC源表并捕获数据变更。配置重点在于设置binlog_format=row并指定需要监听的数据库，代码示例则演示了使用Flink SQL方式建立CDC连

2026-02-10 09:04:15 867

原创一、FlinkCDC-DataStream

本文介绍了使用FlinkCDC以DataStream方式读取MySQL变更数据并打印到控制台的方法。主要包括：1) 引入Flink相关依赖和MySQL连接器；2) 配置MySqlSource构建器，指定数据库连接参数和监控表；3) 通过StreamExecutionEnvironment读取数据流并打印输出。文章还提供了完整的Maven依赖配置和Java实现代码，并附带了运行效果截图。最后提示可能遇到的类型转换异常问题。该方法可用于实时监控MySQL数据库变更，适用于Flink 1.18.0版本环境。

2026-02-09 15:11:32 526

原创 Hudi工具-DeltaStreamer（流式摄取工具）

Hudi DeltaStreamer 工具使用指南 HoodieDeltaStreamer 是 Apache Hudi 提供的一个实用工具，支持从 Kafka、DFS 等不同数据源进行数据摄取，主要功能包括：数据源支持：支持从 Kafka、Sqoop、HiveIncrementalPuller 或 DFS 文件夹增量导入数据数据格式：支持 JSON、Avro 或自定义数据类型管理功能：提供检查点管理、回滚和恢复能力 Schema 管理：支持基于 DFS 或 Confluent schema regis

2026-01-26 11:15:00 1430

原创 FineReport模板认证找不到模板

摘要：在集群部署的FR系统中，出现模板认证失败问题。排查发现sftp服务器sshd服务报错"Auth fail"，/var/log/authpriv.log显示PAM认证失败，sftp用户被锁定。虽然密码正确，但多次失败导致账户锁定。解决办法是修改/etc/pam.d/sshd文件，取消登录失败次数限制，并重启sshd服务。问题得以解决，但账户锁定原因仍存疑。（149字）

2025-06-06 18:17:23 406

原创 MySQL和Hive中的行转列、列转行

对比MySQL和Hive中的行转列、列转行方法，其中Hive列转行有两种方法，一种侧窗、一种union

2025-01-04 13:53:43 886

原创 hadoop服役新节点后，NameNode的web页面无法访问节点信息

服役新节点后，NameNode的web页面无法查看新节点的详细信息！

2024-12-14 20:21:10 699

原创磁盘挂载-生产环境复刻

项目中挂载实操后，本地复刻环境重新挂载，解释说明，详细步骤！！！

2024-12-01 13:34:52 605

原创集群配置了免密登录但是首次登录还是需要输入一次密码？

为什么集群配置了免密登录但是首次登录还是需要输入一次密码？已解决！

2024-11-24 17:07:55 424

原创 MySQL中将一个字符串字段按层级树状展开

将MySQL中一个字段内容按照指定的分隔符切分为层级表，包含id,pid,name，以树状的形式展开

2024-11-16 14:32:24 872 1

原创初始化Superset数据库时提示：Refusing to start due to insecure SECRET_KEY（由于不安全SECRET_KEY而拒绝启动）

安装完superset3.0.0后，初始化数据库的时候提示，拒绝启动，由于不安全的SECRET_KEY

2024-02-18 23:27:01 4799

原创 Spring Boot打war包部署到Tomcat，访问页面404 ！！！

Spring Boot打war包部署到Tomcat，访问页面404 ！！！解决办法：检查Tomcat版本和Jdk的对应关系，我的Tomcat是6.x，jdk是8版本显然不兼容。所以访问不到。更换9版本的Tomcat后，正常访问

2024-02-18 19:20:19 2288

原创 SpringBoot项目本地无错误，打包上传服务器连不上MySQL报错：com.alibaba.druid.pool.DruidDataSource : init datasource error

com.alibaba.druid.pool.DruidDataSource : init datasource error, url: jdbc:mysql://localhost:3306/myblog?serverTimezone=UTC&useUnicode=true&characterEncoding=utf8&characterSetResults=utf8&useSSL=falsejava.sql.SQLException: Access denied for user 'root'@'

2024-02-18 19:19:44 948

原创 Hive拉链表设计、实现、总结

拉链表的设计思路，如何制作，实践踩坑......

2024-02-16 18:33:32 2183 1

原创 Exception when loading 2 in table dim_user_zip with loadPath=hdfs://hadoop101:8020/......

Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 2 in table dim_user_zip with loadPath=hdfs://hadoop101:8020/warehouse/gmall/dim/dim_user_zip/.hive-staging_hive_20

2024-02-16 10:00:00 817

原创 Hive中的复杂数据类型 - array、map、struct

Hive中的复杂数据类型，学会如何使用，如何指定字段为struct类型？如何向struct类型的字段中插入数据？如何取出struct字段中的值？

2024-02-14 12:56:48 2385

原创累加器 - 分布式共享写变量

累加器的基本使用，以及使用累加器可以在某些场景下避免shuffle从而提高性能

2024-02-14 12:09:11 1164

原创横扫Spark之 - 9个常见的行动算子

Spark中常见的9个行动算子以及使用示例

2024-02-09 18:21:37 1203

原创横扫Spark之 - 22个常见的转换算子

Spark中常见的22个转换算子以及使用示例

2024-02-09 17:10:45 1596

原创横扫Spark之 - RDD（Resilient Distributed Dataset）弹性分布式数据集

Spark中最基本的数据抽象 - RDD，既然叫弹性分布式数据集，那如何理解这个弹性、分布式、数据集最后RDD的5个主要特性分别是什么含义

2024-01-30 14:22:46 1873

原创 HQL - 分析用户会话行为轨迹

分析用户每个会话的行为轨迹

2024-01-29 11:43:11 711 1

原创 Flume企业级应用 - 扇入扇出

使用过Flume，那你知道什么是扇入、扇出吗？快来了解一下，也许下次面试就不会被面试官看不起了🤪

2024-01-27 10:45:00 1053

原创手写MapReduce实现WordCount

WordCount到底要干什么？怎么用MapReduce实现WordCount?手写一个自己的WordCount，揭开MapReduce的神秘面纱💡

2023-12-23 12:48:18 1895

原创 Windows上运行第一个wordCount的时候报错Exception in thread “main“ 0: No such file or directory

Windows上运行第一个MapReduce程序-WordCount报错：Exception in thread "main" 0: No such file or directory

2023-12-22 11:38:34 825 2

原创解密Flink的状态管理：探索流处理框架的数据保留之道，释放流处理的无限潜能！

状态是流处理中非常重要的概念，它扮演着关键的角色。本文将带你了解状态的本质及其应用场景，以及常见的状态分类。特别地，我们将重点关注算子状态和键控状态，揭示其在流处理中的重要性和实际应用。通过深入了解状态管理的关键技巧，读者将能够提升流处理任务的高可靠性，并从中获得无限的潜力和机会。无论是对于初学者还是有经验的流处理开发者，本文都将为您带来新的启示和思考。

2023-08-14 12:29:23 818