第二章 ELT之工具选型

1、ELT概述

ELT负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,是数据仓库中的非常重要的一环,它是承前启后的必要的一步。

在这里插入图片描述
ELT过程中的主要环节就是数据抽取、数据装载、数据转换。

2、ELT工具选型

2.1、Sqoop

Sqoop是一个为高效传输海量数据而设计的工具,一般用在从关系型数据库同步数据到非关系型数据库中。
在这里插入图片描述
使用Sqoop进行数据的导入、导出,其本质上是运行Mapreduce程序,充分利用了MR的并行化和容错性。

因为Sqoop专门是为大数据集设计的。Sqoop支持增量更新,将新记录添加到最近一次的导出的数据源上,或者指定上次修改的时间戳。

2.2、Datax

(1)星型数据链路

在这里插入图片描述

(2)框架设计

在这里插入图片描述

  • Reader:数据采集模块,负责采集数据源的数据,将数据发送给Framework。
  • Writer:数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
  • Framework:用于连接reader和writer,作为两者的数据传输通道,并处理缓冲, 流控,并发,数据转换等核心技术问题

(3)运行原理

在这里插入图片描述

  • Job:单个作业的管理节点,负责数据清理、子任务划分、TaskGroup监控管理。
  • Task:由Job切分而来,是DataX作业的最小单元,每个Task负责一部分数据的同步工作。
  • Schedule:将Task组成TaskGroup,单个TaskGroup的并发数量为5。
  • TaskGroup:负责启动Task。

范例:用户提交了一个 DataX 作业,并且配置了 20 个并发,目的是将一个 100 张 分表的 mysql 数据同步到 odps 里面。 DataX 的调度决策思路是:

1)DataXJob 根据分库分表切分成了100个Task。
2)根据 20 个并发,DataX计算共需要分配4个 TaskGroup。
3)4 个 TaskGroup 平分切分好的100个Task,每一个 TaskGroup 负责以5个并发共计运
行 25个Task。
2.3、Sqoop和DataX比较

(1)底层实现区别
Sqoop依赖于Hadoop生态,充分利用了map-reduce计算框架,在Hadoop的框架中运行,对HDFS、Hive支持友善,在处理数仓大表的速度相对较快,但不具备统计和校验能力。

在这里插入图片描述

DataX无法分布式部署,需要依赖调度系统实现多客户端,可以在传输过程中进行过滤,并且可以统计传输数据的信息,因此在业务场景复杂(表结构变更)更适用,同时对于不同的数据源支持更好,同时不支持自动创建表和分区。支持流量控制,支持运行信息收集,及时跟踪数据同步情况。
DataX框架设计:
在这里插入图片描述
(2)调用区别

Sqoop采用命令行的方式调用,比如容易与我们的现有的调度监控方案相结合,
DataX采用xml 配置文件的方式,在开发运维上还是有点不方便。

(3)链路区别

Sqoop只可以在关系型数据库和Hadoop组件之间进行数据迁移,而在Hadoop相关组件之间,比如hive和hbase之间就无法使用sqoop互相导入导出数据,同时在关系型数据库之间,比如mysql和oracle之间也无法通过sqoop导入导出数据。

在这里插入图片描述

DataX能够分别实现关系型数据库Hadoop组件之间、关系型数据库之间、Hadoop组件之间的数据迁移。

在这里插入图片描述

  • 最后选型DataX

3、DataX安装配置

(1)解压到到/opt/module

 tar -zxvf datax.tar.gz -C /opt/module/

在这里插入图片描述

(2)运行自检脚本

cd /opt/module/datax/bin

python datax.py /opt/module/datax/job/job.json

在这里插入图片描述

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

随缘清风殇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值