mysql cdc flume_ETL+CDC实现数据集成方案

数据集成方案对比

一种是通过ESB接口方式进行数据集成,优点是数据的时效性高,但最大的弊端是依赖于业务系统的接口改造,往往会涉及和厂商的接口费用。

另一种方式就是通过ETL方式抽取数据,并通过CDC方式实现数据实时同步,优点是不依赖于业务系统,只需要获取业务系统数据库权限便可实现集成。

CDC+ETL数据集成方案0921f31753d2e6d226203286d4263073.pngELT + CDC 技术方案

实施流程

第一步:通过kettle、Sqoop从镜像数据库抽取历史数据到Haoop(Hive)。

关系型数据库数据(Oracle、SqlServer)迁移至非关系型数据库(HDFS、Hbase、Hive),推荐使用Sqoop工具。如果是将不同种类的关系型数据库(Oracle、MySQL、SQL server)整合到同一个关系型数据库中,如MySQL。推荐使用Kettle,有GUI界面操作简单。

第二步:业务系统镜像数据库启动CDC功能,并实时同步数据到Haoop(Hive)。

该技术通过读取镜像数据库日志文件,解析回放数据库操作方式,实现业务数据变更捕获。通过flume实时监控CDC记录表下沉kafka,应用程序订阅服务,解析数据到Hadoop。日志读取、解析、回放等操作都是在镜像数据库上进行,业务数据库只会产生少量的I/O开销,以最大限度地降低对业务系统的影响。

第三步:使用颐东数仓配置数据目录映射关系,自动生成Hive视图HiveSql。

通过以上三步完成数据仓库建设,仓库数据(视图)跟随业务数据改变而改变。

第四步:数据中台

数据仓库提供数据中台服务,根据业务活动可自定义勾选数据集市所需字段生成ElasticSearch索引,并自动生成数据接口。

数据应用

9d6e52fd77fa08ecea474a2a25134c3a.png数据应用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值