Laurence　-CSDN博客

原创 CDC 数据实时同步入湖的技术、架构和方案汇总

最近，对“实时摄取 CDC 数据同步到数据湖”这一技术主题作了一系列深入的研究和验证，目前这部分工作已经告一段落，本文把截止目前（2024年5月）的研究结果和重要结论做一下梳理和汇总。为了能给出针对性的技术方案，我们必须收敛话题，对一些技术选型做了限制，在数据库这一侧，我们以 MySQL 作为示例进行演示（PG 等其他主流数据库理论上均可行），在数据湖这一侧，我们重点关注的是 Apache Hudi。

2024-05-27 09:20:18 5241

原创 Flink CDC 整库 / 多表同步至 Kafka 方案（附源码）

我们此前介绍的一些 CDC 开箱即用方案往往都是一张表对应一条独立的链路（作业），需要一个独立的数据库连接，在表数量很大的情况下，会对数据库造成很大压力，同时过多的 Flink 作业会不易于管理和维护，为众多小表创建独立的采集作业也浪费了资源。此外，使用 Flink SQL 针对每张表定义 CDC 作业也是一项繁重的工作，如果能简化或省略编写大量 SQL 的工作也是一项重要的改进。所以，一种更为实用的解决方案是：使用一个 Flink 作业完成整库 / 多表的 CDC 数据接入工作。本文我们会详细介绍一下这一

2024-04-18 09:29:21 3548

原创 CDC 实时入湖方案：MySQL＞Flink CDC＞Kafka ＆ Schema Registry＞Hudi ( Flink Connector )

本方案的技术链路为：使用 Flink CDC 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka ，然后通过 Flink Hudi Connector 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文是《CDC 实时入湖方案：MySQL > Flink CDC > Kafka > Hudi》的增强版，在打通从源端数据库到 Hudi 表的完整链路的前提下，还额外做了如下两项工作：

2024-02-20 13:07:22 2712

原创 CDC 实时入湖方案：MySQL＞Kafka Connect＞Kafka ＆ Schema Registry＞Hudi ( Flink Connector )

本方案的技术链路为：使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka 之后，通过 Flink 读取并解析这些 CDC 数据，其中，数据是以 Confluent 的 Avro 格式存储的，也就是说，Avro 格式的数据在写入到 Kafka 以及从 Kafka 读取时，都需要和 Confluent Schema Registry 进行交互，从而获取 Schema 信息，消息经 Fli

2024-02-01 12:38:21 2510

原创 HBase 例行灾备方案：快照备份与还原演练

本文首发于亚马逊AWS官方博客，该方案是为某用户定制的 HBase 灾备方案，方案本身具有很好的适用性，可以复用于常规 HBase 灾备场景。用户每周会对 HBase 进行一次全量备份，将快照上传至 S3 保存，同时，在消息队列和其他数据库中保存着两周以内的增量数据，当 HBase 宕机时，会先还原快照将数据库恢复至一周内某一时刻的全量状态，然后再从其他系统读取一周内的增量数据进行补录，直至数据追平。本文讨论 HBase 基于快照的例行备份和灾后恢复操作，并给出操作脚本

2023-12-27 13:14:41 2657

原创 HBase 超大表迁移、备份、还原、同步演练手册：全量快照 + 实时同步（Snapshot + Replication）不停机迁移方案

本文首发于Apache HBase公众号。介绍的演练操作源于某真实案例，用户有一个接近 100 TB 的 HBase 数据库，其中有一张超大表，数据量约为数十TB，在一次迁移任务中，用户需要将该 HBase 数据库迁移到 Amazon EMR 上。本文将讨论并演示：使用全量快照 + 实时同步（Snapshot + Replication）的方式将一个数十TB HBase 单表不停机迁移数据到一个 HBase on S3 集群上。

2023-12-25 09:30:00 5107 8

原创 Apache Kafka 基于 S3 的数据导出、导入、备份、还原、迁移方案

在系统升级或迁移时，用户常常需要将一个 Kafka 集群中的数据导出（备份），然后在新集群或另一个集群中再将数据导入（还原）。通常，Kafka集群间的数据复制和同步多采用 Kafka MirrorMaker，但是，在某些场景中，受环境限制，两个于 Kafka 集群之间的网络可能无法连通，亦或是需要将 Kafka 的数据沉淀为文件存储以备他用。此时，基于 Kafka Connect S3 Source / Sink Connector 的方案会是一种较为合适的选择，本文就将介绍一下这一方案的具体实现。

2023-09-12 11:09:38 2668

原创解决方案：如何在 Amazon EMR Serverless 上执行纯 SQL 文件？

长久已来，SQL以其简单易用、开发效率高等优势一直是ETL的首选编程语言，但遗憾的是，Amazon EMR Serverless 未能针对执行SQL文件提供原生支持，这对于倚重纯SQL开发数仓或数据湖的用户来说并不友好。为此，我们专门开发了一组工具类，借助这组工具类，用户可以在 Amazon EMR Serverless 上直接执行SQL文件。

2023-08-16 11:12:26 1079

原创 CDC 一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

本文首发于Apache Hudi公众号。Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类，它简化了流式数据入湖并存储为Hudi表的操作，自 0.10.0 版开始，Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力，这使得其可以直接将Debezium采集的CDC数据落地成Hudi表，这一功能极大地简化了从源头业务数据库到Hudi数据湖的数据集成工作。

2023-07-31 09:34:54 852

原创探索 Apache Hudi 核心概念 (4) - Clustering

本文首发于Apache Hudi公众号。Clustering是Hudi在0.7.0版本引入的一项特性，用于优化文件布局，提升读写性能，现在它已经成为Hudi的一项重要性能优化手段。本文我们会通过Notebook介绍并演示Clustering的运行机制，帮助您理解其工作原理和相关配置。

2023-04-17 10:10:27 2157 1

原创探索 Apache Hudi 核心概念 (3) - Compaction

本文首发于Apache Hudi公众号。Compaction是MOR表的一项核心机制，Hudi利用Compaction将MOR表产生的Log File合并到新的Base File中。本文我们会通过Notebook介绍并演示Compaction的运行机制，帮助您理解其工作原理和相关配置。

2023-04-10 10:14:06 2825 8

原创探索 Apache Hudi 核心概念 (2) - File Sizing ( 控制文件大小 )

本文首发于Apache Hudi公众号。在本系列的上一篇文章中，我们通过Notebook探索了COW表和MOR表的文件布局，在数据的持续写入与更新过程中，Hudi严格控制着文件的大小，以确保它们始终处于合理的区间范围内，从而避免大量小文件的出现，Hudi的这部分机制就称作“File Sizing”。本文，我们就针对COW表和MOR表的File Sizing进行一次深度探索。

2023-04-04 13:02:49 1527

原创探索 Apache Hudi 核心概念 (1) - File Layouts ( 文件布局 )

本文首发于Apache Hudi公众号。以往介绍Apcache Hudi的文章对核心概念的解读大多引用官方文档中的概念图，但是，抽象概念与实际运行状况还是有不少差异的，很多学习和使用Hudi的开发者都曾尝试过：将文档中的概念和Hudi的实际运行状况结合起来推导每个动作背后的逻辑是什么。本文利用Notebook良好的交互能力，设计一系列有针对性的操作，让这些操作去触发Hudi的某些机制，然后观察Hudi数据集的状态（包括元数据和存储文件），再结合对Hudi相关概念的介绍，解读这些行为。

2023-03-27 08:00:00 1558 5

原创 Apache Ranger 与 AWS EMR 自动化安装与集成（系列文章）

本系列文章发表于DZONE，共计五篇，文章针对Apache Ranger 与 AWS EMR 自动化安装与集成给出了完整的解决方案，方案背后是由一个12000+行代码开源项目提供支持，该系列文章同时也是此项目的官方文档。以下是五篇文章的具体信息：Solutions Overview；OpenLDAP + EMR-Native Ranger；Windows AD + EMR-Native Ranger；OpenLDAP + Open-Source Ranger；Windows AD + Open-Sourc

2023-01-30 17:58:23 845

原创集成 OpenLDAP 与 Kerberos 实现统一认证 (3)：基于 SASL/GSSAPI 深度集成

本文首发于 InfoQ，写作本系列文章的背景是我们要在大数据平台/企业数据湖场景下给出中心化的用户身份认证方案。此前，我们实现过Windows AD + Kerberos的集成方案，由于Windows AD是LDAP和Kerberos的双重实现，这种天然优势使得Windows AD可以实现真正意义上的（大数据集群的）Kerberos账号与企业用户账号的统一管理。当我们想在OpenLDAP + Kerberos上实现同样的目标时，发现这一领域的知识与方案琐碎而凌乱，缺少统一连贯，脉络清晰的讲解

2022-06-07 17:22:17 3728 4

原创集成 OpenLDAP 与 Kerberos 实现统一认证 (2)：基于 SSSD 同步 LDAP 账号

2022-06-07 17:10:01 3912 1

原创集成 OpenLDAP 与 Kerberos 实现统一认证 (1)：整合后台数据库

2022-06-07 17:02:40 3943 3

原创数据平台上云，变革远比想象的深刻

几年前，我所在的一家传统行业的头部企业启动了一系列数字化转型项目，在配套的IT基础设施建设上，“上云”已是大势所趋。在此前数年的工作中，我断断续续地使用着公有云产品，大多数情况下，我们只选择IaaS层级的服务，也就是只使用虚拟实例，对PaaS和云平台特定的Serverless产品敬而远之....

2021-11-15 15:38:29 2799 2

原创关于 Spark on Yarn 的资源分配与 Capacity Scheduler 的研究

文章目录1.启用CapacityScheduler2.集群信息与配置2.1.yarn.nodemanager.resource.xxx2.2.yarn.scheduler.minimum/maximum-xxxx3.SparkonYarn的内存模型4.user-limit-factor：单用户时提升资源利用率的重要因子5.规整化因子6.测试队列资源划分方案7.测试计划7.1.用例一7.2.用例二7.3.用例三7.2.用例四8.小结资源调度永远是一个对立统一的问题，在一个限

2021-06-18 15:04:03 3652 6

原创在 AWS Glue 中使用 Apache Hudi

本文发表于Apache Hudi公众号，文章对Glue与Hudi的集成做了可行性分析和理论探索，并通过一个完整的示例演示了如何在Glue作业中使用Hudi，同时将将Hudi元数据同步到Glue Catalog。

2021-04-21 11:00:47 2102 1

原创企业数据能力测评：认清现状，布局未来 | 建设数据中台系列（一）

“我的企业目前在数据应用上处于什么水平？接下来应该朝哪个方向努力？”本文试图帮助企业决策者和IT负责人解答这一问题。今天，数据之于企业的重要性已经勿须多言，建设数据驱动型企业已成为众多企业的战略目标之一。在这一趋势的引领下，很多企业开始了新一代数据平台（例如数据中台）的建设工作，然而在启动这一具有挑战性的工作之前，企业首先需要冷静客观地审视一下自己的数据生态，弄清楚目前所处的能力水平，以及下一步努力的“方向”。只有这样才能确保后续工作沿着正确的方向展开，这可能也是企业在构建全新的大数据平台或数据中台前.

2020-07-10 11:13:18 3298 1

原创重磅推荐：建大数据平台太难了！给我发个工程原型吧！

故事缘起：我们需要工程原型！大数据平台的架构体系庞大，技术堆栈非常深，从事大数据开发的同学对此应该都深有体会。而在很多细分领域（例如实时计算、作业调度）也没有像样的工程模板,这导致很多团队在启动大数据平台建设时往往感到无所侍从，也使得希望深入学习大数据技术的开发者由于缺少工程级的示例参考而感到迷茫。如果在大数据领域也有基于最佳实践提炼出来的工程原型，帮助团队快速启动开发，上手就写业务代码的话，你想了解一下吗？

2020-06-19 11:27:26 8686 13

原创时间序列大数据平台建设经验谈

2018-02-07 10:37:25 17107 5

原创从函数字面量发现函数式编程

2015-04-27 11:54:09 9944 1

原创 HBase高性能复杂条件查询引擎

版权声明：本文由本人撰写并发表于2014年7月份的InfoQ，HBase的PMC成员Ted Yu先生参与了审稿并于给予了肯定。该方案设计之初仅寄希望于通过二级索引提升查询性能，由于在前期架构时充分考虑了通用性以及对复杂条件的支持，在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。HBase在大数据领域的应用越来越广泛，成为目前NoSQL数据库中表现最耀眼，呼声最高的产品之一，但就应对复杂条件的查询来说，一般认为它并不是非常适合，熟悉HBase的开发人员对此应该有一定的体会，但是基于普遍的需求，开发者们希

2014-06-17 20:10:36 46721 7

原创数据库分库分表(sharding)系列(五) 一种支持自由规划无须数据迁移和修改路由代码的Sharding扩容方案

2012-09-12 12:19:52 73062 55

原创 Spring基于ThreadLocal的“资源-事务”线程绑定设计的缘起

题目起的有些拗口了，简单说，这篇文章想要解释Spring为什么会选择使用ThreadLocal将资源和事务绑定到线程上，这背后有着什么样的起因和设计动机，通过分析帮助大家更清晰地认识Spring的线程绑定机制。本文原文链接：http://blog.csdn.net/bluishglc/article/details/7784502 转载请注明出处！“原始”的数据访问写法访问任何带有事务特性的资源系

2012-07-25 14:17:56 26959 2

原创数据库分库分表(sharding)系列(一) 拆分实施策略和示例演示

本文着重介绍sharding切分策略，如果你对数据库sharding缺少基本的了解，请参考我另一篇从基础理论全面介绍sharding的文章：数据库Sharding的基本思想和切分策略第一部分：实施策略图1.数据库分库分表(sharding)实施策略图解(

2012-06-27 14:32:44 181587 6

原创从MVC框架看MVC架构的设计

从MVC框架看MVC架构的设计尽管MVC早已不是什么新鲜话题了，但是从近些年一些优秀MVC框架的设计上，我们还是会发现MVC在架构设计上的一些新亮点。本文将对传统MVC架构中的一些弊病进行解读，了解一些优秀MVC框架是如何化解这些问题的，揭示其中所折射出的设计思想与设计理念。MVC回顾作为一种经典到不能再经典的架构模式，MVC的成功有其必然的道理，这个道理不同的人会有不同的解读，笔者最认同的一种观

2011-08-16 09:57:37 100276 29

原创领域驱动设计(Domain Driven Design)参考架构详解

领域驱动设计(Domain Driven Design)参考架构详解摘要本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构，该架构分成了Interfaces、Applications和Domain三层以及包含各类基础设施的Infrastructure。本文会对架构中一些重要组件和问题进行讨论，给出一些分析结论。本文原文连接：http://blog.csdn.net/b

2011-08-12 11:33:02 71161 6

原创数据库Sharding的基本思想和切分策略

本文着重介绍sharding的基本思想和理论上的切分策略，关于更加细致的实施策略和参考事例请参考我的另一篇博文：数据库分库分表(sharding)系列(一) 拆分实施策略和示例演示一、基本思想 Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上，从而缓解单一数据库的性能问题。不太严格的讲，对于海量数据的数据库，如果是因为表多而数据多，这时候适合使

2011-01-24 16:32:00 167676 40

原创 C++基础：预处理器和头文件包含

本文系统介绍了C++预处理器和头文件机制。预处理器在编译前执行指令，主要功能包括条件编译、文本替换和文件包含。C++采用分别编译机制，通过头文件存放类声明，实现文件存放定义，使用#include指令包含头文件以获取声明信息。与Java不同，C++需要显式包含头文件来解决编译时的依赖关系。为防止重复包含，使用#ifndef、#define、#endif等预处理指令实现头文件保护。这种机制体现了C++底层、灵活的特点，但也相对原始复杂。理解预处理和头文件机制是掌握C++模块化编程的关键。

2026-01-31 15:10:29 850

原创 Hudi 多表摄取工具 HoodieMultiTableStreamer 配置方法与示例

由于 Hudi 的 HoodieMultiTableStreamer / HoodieMultiTableDeltaStreamer 是一次处理多张 Hudi 表的写入，这些表既会有如 hoodie.deltastreamer.source.kafka.value.deserializer.class 这样相同的公共配置，也会有如 hoodie.datasource.write.recordkey.field 这样每张表每张表都不同的个性化配置，为此，HoodieMultiTableStreamer / H

2024-05-22 14:14:24 2898

原创 CDC 实时入湖方案：MySQL＞Kafka Connect＞Kafka ＆ Schema Registry＞Hudi ( HoodieMultiTableStreamer )

本方案的技术链路为：使用 Kafka Connect 配合 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka ，然后通过 Hudi 的 HoodieMultiTableStreamer 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文和《CDC 实时入湖方案：MySQL > Kafka Connect > Kafka ＆ Sche

2024-05-20 15:25:42 3013 3

原创 CDC 实时入湖方案：MySQL＞Flink CDC＞Kafka ＆ Schema Registry＞Hudi ( HoodieMultiTableStreamer )

本方案的技术链路为：使用 Flink CDC 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka ，然后通过 Hudi 的 HoodieMultiTableStreamer 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文和《CDC 实时入湖方案：MySQL > Flink CDC > Kafka ＆ Schema Registry > Hudi ( Flink Connector ) 》介绍的

2024-05-19 10:15:00 2072

原创使用 HoodieMultiTableStreamer 进行 Debezium CDC 多表同步入湖的研究报告

先介绍一下大的背景吧，我们已经能通过 Flink CDC 将整个数据库同步到 Kafka 中了，这一部分的实现方案已经汇总在了《Flink CDC 整库 / 多表同步至 Kafka 方案（附源码）》一文中。接下来要完成的是后半程的工作：读取 Kafka 的 Debezium CDC 数据写入到数据湖的 Hudi 表中，这样就能完整地实现整个数据库同步入湖的设计目标，当然，要求还是：“源库整库 / 多表 => Kafka”是一个作业，“Kakfa => Hudi 整库 / 多表”也是一个作业，这样才有比较强

2024-05-18 10:15:00 1337

原创 Flink 生态对 Confluent / Kafka Schema Registry 支持情况的研究报告

这几年，在流式链路上引入一个 Schema Registry 变得越来越流行，也越来越有必要， Schema Registry 能有效控制 Schema 的变更，合理推进 Schema Evolution，同时，引入它以后还能有效精简消息内容（特别是针对 Avro 格式），提升消息的传输效率，所以引入 Schema Registry 是有很多正向收益的。在 Flink 生态中，对 Confluent Schema Registry 的支持度如何呢？本文，我们来详细地梳理和总结一下。有关的组件主要是 Flin

2024-05-17 09:18:50 2115

原创 Hudi HoodieStreamer 报错 DebeziumSource only support SchemaRegistryProvider 解决方法

在使用 HoodieStreamer / HoodieDeltaStreamer 从 Kafka 摄取 Debezium CDC 消息并自动解析写入到 Hudi 表时，我们可能会遇到这样一个问题：org.apache.hudi.utilities.sources.debezium.DebeziumSource only support org.apache.hudi.utilities.schema.SchemaRegistryProvider 这个问题本身的解决方法很简单，但是这个问题对整个 CDC 数据

2024-05-16 09:38:06 1077

原创 Flink CDC 的 Debezium Json 消息中文乱码的解决方法

在使用 Flink CDC 的 API 摄取 CDC 数据到 Kafka 的时候，如果使用的是 JsonDebeziumDeserializationSchema，那么会有很大概率遇到中文乱码问题，下面就是一个示例

2024-05-14 10:36:00 1133

原创 Hudi HoodieStreamer 报错 A column or function parameter with name ts_ms cannot be resolved 解决方法

在使用 HoodieStreamer 启动一个 CDC 数据实时入湖的作业中，遇到了这样一个报错：org.apache.spark.sql.AnalysisException:[UNRESOLVED_COLUMN.WITH_SUGGESTION] A column or function parameter with name ts_ms cannot be resolved. Did you mean one of the following? [after, op, before].; line

2024-05-12 10:51:03 1248

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

AspectJ in Action 2nd Edition.pdf

GVIM中文帮助文档 vimcdoc-1.8.0-setup-unicode.exe

The.Art.of.Multiprocessor.Programming.Revised.Reprint

Domain-Driven Design Tackling Complexity in the Heart of Software.chm

PowerDesigner16.1 crack keygen 破解文件

SQL FUNDAMENTALS,3rd Edition.pdf

distributed systems principles and paradigms 2nd edition.pdf

SVN1.5中文手册

High Performance MySQL Second Edition

Using Memcached

Axure.RP.Pro.v6.0.0.2899 keygen sn

Understanding Web Services XML WSDL SOAP and UDDI.pdf

Developing Enterprise Web Services An Architect's Guide.chm

Spring in Action, 4th Edition

Packtpub.Spring.Security.3.May.2010

programming web services with soap.pdf

J2EE Platform Web Services.chm

jQuery in Action 2nd.Edition

The Complete Log4j Manual

Hadoop权威指南(中文第2版)

Spring in Action 3rd Edition

Develpling Java Beans

Pro Apache Log4j Second Edition

Apache Solr 3.1 Cookbook

Lucene in Action 2nd Edition

EasyBCD2.1.2

vim中文文档

Linux Bible 2010 Edition

空空如也