大数据相关——DataX(一 概述以及部署)

目录

1 概述

2  设计理念

 3 框架设计

4 DataX运行流程

5 DataX和Sqoop对比

6 部署


1 概述

DataX是一个异构数据源离线同步工具,实现包括关系型数据库(MySQLOracle)HDFSHiveODPSHBaseFTP等各种异构数据源之间稳定高效的数据同步功能。

2  设计理念

各个数据源之间可以通过DataX去对接。

 3 框架设计

采用Framework + plugin架构构建,将数据源读取和写入抽象为Reader/Wrier插件,纳入到整个同步框架。

FrameWork: 连接reader和writer ,作为传输通道,同时处理缓冲,流控,并发,数据转换等问题。

4 DataX运行流程

 Job:一个数据同步的作业,启动一个进程。

Task:Job可以切分(分库分表切分策略)为多个Task,Task是DataX作业最小的单元,每个task负责一部分数据同步的任务。(Task以Reader-Channel-Writer线程完成同步)

Schedule:Task分组( 总并发度channel,每个TaskGroup组并发度最大5,组数= 总并发channel / 5,每个组多少个task = 总task / 组数)。

TaskGroup:Task组,负责并发Task任务,每个组并发度最大5。

5 DataX和Sqoop对比

6 部署

注意:本部署是在虚拟机环境下,CentOS7

(1) 下载安装包,上传至虚拟机,创建一个文件夹,放在文件夹下面。

下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

(2)解压缩到指定的文件夹(建议和安装包分开)

(3)执行命令,出现以下界面表示成成功。

python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值