数据集成
文章平均质量分 89
数据集成
@SmartSi
Stay Hungry, Stay Foolish
展开
-
为什么选择基于日志的 CDC
CDC 的全称是 Change Data Capture,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛:数据同步:用于备份,容灾;数据分发:一个数据源分发给多个下游系统;数据采集:面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。CDC 的技术方案非常多,目前业界主流的实现机制可以分为两种:原创 2021-10-09 17:08:57 · 943 阅读 · 0 评论 -
DataX 快速入门
DataX 版本:3.0Github主页地址:https://github.com/alibaba/DataXDataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。具体请查阅:DataX 异构数据源离线同步1. 环境要求LinuxJDK(1.8 以上,推荐 1.8)Python(推荐 Python2.6.X)2. 下载直接下载 DataX 工.原创 2022-04-30 23:45:14 · 907 阅读 · 0 评论 -
DataX 异构数据源离线同步
DataX 版本:3.0Github主页地址:https://github.com/alibaba/DataX1. 简介DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX 将复杂的网状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对.原创 2022-04-06 23:11:32 · 752 阅读 · 0 评论