中间件XL
这个作者很懒,什么都没留下…
展开
-
datax关系数据库插件设计和实现解释
本文介绍基于RBT的关系数据插件,datax自带关系数据库插件,本组件有以下特性:rbt组件转换配置,以写入库未目标,配置数据查询和规则,配置支持序列化为xml/json转换配置支持配置中心,zookeeper,nacos,数据库等,可扩展框架支持基于规则的转换,规则修改和新建 column/record两阶段转换,支持数据转换和关系的转换insert/upsert模式setl-data组件,无缝切换不同的数据库原创 2024-01-15 18:47:37 · 517 阅读 · 0 评论 -
datax关系/图数据库(neo4j)插件设计与实现(附源码)
背景DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。图库是属于newsql/nosql, 近几年应用火热的数据库类型,广泛用于金融风控,社原创 2022-05-15 22:22:45 · 1547 阅读 · 0 评论 -
datax基于规则转换+关系/图(neo4j)异构同步设计与实现(附源码)
《datax关系/图数据插件设计说明书》介绍关系/图转换插件,该插件属于数据同构同步,模型一致,属性名称一致,优点是自动化高,不用多大干预,适合生成中间数据,特别是,关系数据库系统与图数据库系统不在同一网段,网络不稳定,同步尽量简单显得很重要 然而,实际的情况是,目标数据模式设计与源数据不同,包括模型和规范,这时候需要高度可配置的转换组件,基于规则的转换(RBT)组件为此而开发,使用规则改造和构建record,提供高度可配置的同时,不失通用性 因此,关系/图转换插件和基于规则的转换(RBT)组件两者互为原创 2022-06-16 12:13:47 · 587 阅读 · 1 评论 -
datax监控测量(metrics)设计与实现(附源码)
DataX监控测量(metrics)输出器Prometheus原创 2022-05-29 23:00:51 · 899 阅读 · 0 评论 -
datax源码原理分析&分布式 datax 架构设计
1. 背景DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX 将复杂的网状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到 DataX,便能跟已有的数据源做到无缝数据同步。分布式 DataX 基于 datax 开发的,支持分片分布式调度,分原创 2022-04-12 21:55:29 · 2316 阅读 · 0 评论 -
分布式 dataX 详细 (落地) 设计
分布式 DataX 基于 datax 打造的语义分分布式 ETL 平台。Datax 提供 reader-framework-writer 框架,方便开发两种异构数据源数据同步,但开源的 datax 缺少分布式特性,本文介绍基于elastic 平台和改造分布式 datax 详细(落地)设计。原创 2022-11-15 11:53:54 · 1004 阅读 · 1 评论 -
CDC 增量同步框架与关系 /neo4j 增量同步设计
数据增量同步是 ETL 关键功能,在全量同步后,持续增量同步,保证数据的完整,正确和时效,通常有两种方式实现,双写和 CDC双写 优点,实现简单, 写入源库同时写入目标库;缺点,代码侵入,影响正常业务CDC 优点,无侵入,读取数据库 log,获取数据变更;缺点,复杂,需要引入 CDC 组件,从数据变更(表/行/字段变更)到目标增量变更(通常是 DTO)需要复杂的映射Cdc 组件本身通用设计,支持扩展 redis,elasticsearch 等数据库同步本文包括两部分,cdc 组件设计和。原创 2022-10-01 16:34:22 · 1304 阅读 · 0 评论 -
Datax CDC 可靠 channel
可靠 channel,可确认的分布式持久数据(Record)的 channel,Channel 不可靠对于 CDC 是致命的,丢失数据;但对于全量同步可以接受,全量同步故障转移后,整个分片重新同步。可靠 channel 对于数据量比较大,没有分片的情况也非常有用,相当于断点续传的能力,但对性能有一定影响原创 2022-12-01 17:21:39 · 594 阅读 · 0 评论 -
分布式dataX CDC与关系/图(neo4j)增量同步(完整版)
SETL逻辑架构和规划setl-rbt 全量同步组件,datax组件,接入分布式调度,实现高性能的全量同步setl-cdc cdc增量同步datax组件,接入分布式时间槽实现高可靠增量,后续规划接入kafka connectsetl-stream 规划中,流式etl,引入kafka connect,实现高吞吐低延时的增量同步config-center 配置中心,datax原生使用本地文件配置,配置中心摆脱本地文件限制,实现分布式系统的必要基础设施。原创 2022-12-17 22:29:32 · 912 阅读 · 1 评论 -
分布式datax CDC架构设计
分布式dataX CDC有两种可选方式,分布式作业和分布式时间槽分布式作业在《分布式dataX详细(落地)设计》介绍过,dataX CDC单分片,使用分布式作业,只有一个worker作业工作,其他worker作业备用状态,资源利用率不高,因此,分布式时间槽比较合适。原创 2022-12-15 11:28:23 · 699 阅读 · 0 评论