DataX安装部署及小试

标签: DataX mysql2Hive 安装部署
18人阅读 评论(0) 收藏 举报
分类:
1、下载压缩包
下载页面地址
https://github.com/alibaba/DataX
不要在【Clone or download】处下载,那里下载的是源码;对于Java不是很在行的人来说,自行编译显得有点困难
而是在:【Quick Start】--->【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。解压后{datax}目录下有{bin  conf  job  lib  log  log_perf  plugin  script  tmp}几个目录。
2、安装
将下载后的压缩包直接解压后可用,前提是对应的java及python环境满足要求。
System Requirements:
Linux
JDK(1.6以上,推荐1.6)
Python(推荐Python2.6.X)
Apache Maven 3.x (Compile DataX)

3、参考文档
具体安装部署及使用文档可以参考【Quick Start】部分。
json文档配置可以参考[Support Data Channels]里各接口读写配置说明。
其他的一些说明也可以在此文档中能够找到。
4、运行作业
$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

5、小示例(将mysql数据导入到hdfs)
5.1、hive上建目标表
drop table if exists xxx_yt0329; 
CREATE TABLE xxx_yt0329 (
  `date` varchar(10),
  `room_id` int,
  `fanself_pay_amount` bigint
)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 
  'field.delim'='\t', 
  'line.delim'='\n', 
  'serialization.format'='\t');
5.2、json配置文件
[hadoop@emr-worker-10 xdataConf]$ cat datax1.json 
{ 
"job": { 
"content": [ 
{ 
"reader": { 
"name": "mysqlreader", 
"parameter": { 
"column": [ 
"*" 
], 
"connection": [ 
{ 
"jdbcUrl": [ 
"jdbc:mysql://MysqlHost:6605/jellyfish_hadoop_stat" 
], 
"table": [ 
"xxx_yt0329" 
] 
} 
], 
"password": "MysqlPass", 
"username": "MysqlUser" 
} 
}, 
"writer": { 
"name": "hdfswriter", 
"parameter": {
"column": [ 
{ 
"name": "date", 
"type": "VARCHAR" 
}, 
{ 
"name": "room_id", 
"type": "INT" 
}, 
{ 
"name": "fanself_pay_amount", 
"type": "INT" 
}
], 
"compress": "gzip", 
"defaultFS": "hdfs://10.25.253.240", 
"fieldDelimiter": "\t", 
"fileName": "xxx_yt0329", 
"fileType": "text", 
"path": "/user/hive/warehouse/ods.db/xxx_yt0329", 
"writeMode": "append" 
} 
} 
} 
], 
"setting": { 
"speed": { 
"channel": "2" 
} 
} 
} 
} 
5.3、执行任务
python /home/hadoop/nisj/datax/bin/datax.py /home/hadoop/nisj/xdataConf/datax1.json
2018-04-16 19:32:35.317 [job-0] INFO  StandAloneJobContainerCommunicator - Total 269189 records, 4883559 bytes | Speed 476.91KB/s, 26918 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.910s |  All Task WaitReaderTime 0.303s | Percentage 100.00%
2018-04-16 19:32:35.318 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2018-04-16 19:32:22
任务结束时刻                    : 2018-04-16 19:32:35
任务总计耗时                    :                 12s
任务平均流量                    :          476.91KB/s
记录写入速度                    :          26918rec/s
读出记录总数                    :              269189
读写失败总数                    :                   0

查看评论

DataX3.0的安装以及基本使用

检测运行环境:java(1.6及其以上)、python(2.6及其以上),python直接在终端输入:python,即可查看版本 DataX3.0下载地址(使用windows机器在浏览器地址栏输入下面...
  • AndyChenWF
  • AndyChenWF
  • 2018-01-30 10:12:41
  • 170

DataX安装部署及小试

1、下载压缩包下载页面地址:https://github.com/alibaba/DataX不要在【Clone or download】处下载,那里下载的是源码;对于Java不是很在行的人来说,自行编...
  • BabyFish13
  • BabyFish13
  • 2018-04-16 19:39:53
  • 18

Win 10 ELK(5.4.1) 环境搭建与基本使用与 Expected one of # 解决办法

Win 10 ELK(5.4.1) 环境搭建与基本使用与 Expected one of # 解决办法 ELK :   elasticsearch:  将日志信息进行分割,建立索引 (依赖分词插件) ...
  • wangming520liwei
  • wangming520liwei
  • 2017-06-14 14:21:50
  • 3748

DataX的部署与安装

刚来公司的第二天做的事就是把cd的数据导到bj来,因为不能按照原来一模一样的去导所以就用到了datax,而datax帮我搞定了这个难题,有道是花时间想办法解决,不如找工具研究。首先我们得先下载data...
  • ProGram_BlackCat
  • ProGram_BlackCat
  • 2016-11-29 13:36:40
  • 4779

Datax3.0的安装和基本使用

安装过程: 1、先解压datax的安装包[root@slave1 datax]# tar -xvf datax.tar.gz 2、个datax的安装路径授权[root@slave1 datax]# ...
  • paicMis
  • paicMis
  • 2016-12-10 23:56:10
  • 6976

windows下安装redis

1、redis简介 redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(...
  • xiaoshunzi111
  • xiaoshunzi111
  • 2016-10-01 15:40:40
  • 303

windows 控制台cmd乱码的解决办法 chcp 65001

windows 控制台cmd乱码的解决办法 我本机的系统环境: OS Name: Microsoft Windows 10 企业版 OSVersion: 10.0.14393 N/A Bui...
  • wangming520liwei
  • wangming520liwei
  • 2017-04-25 09:37:40
  • 3500

Tensortflow 安装&小试

记录tensorflow(1.0)版在windows10下的环境搭建。 使用的是anaconda 目前的环境是Python 3.5(网上说3.6还不支持)1)找到anaconda Naviga...
  • qq_28413479
  • qq_28413479
  • 2017-03-26 09:11:28
  • 1083

datax源码在线下载

  • 2017年12月17日 21:38
  • 30.04MB
  • 下载

Windows平台搭建Kafka源代码开发环境(Eclipse版本)

最近在研究Kafka源代码,需要自己搭建一个开发环境。官网上给出的提示略显简单,照着做了一遍也碰到了一些问题。特此记录下来。 开发环境: Oracle Java 1.7_u71 + Eclips...
  • libing13810124573
  • libing13810124573
  • 2015-09-21 20:44:05
  • 815
    个人资料
    持之以恒
    等级:
    访问量: 42万+
    积分: 5841
    排名: 5491
    最新评论