一 前置准备
1、Linux下jdk的安装
2、Linux下Python的安装 (官方推荐2.6.x),实际其他版本目前也可以,本机自带python2.7,使用也是此版本
3、Hadoop完全分布式集群环境
二 安装
源码地址:https://github.com/alibaba/DataX
这 里 我 下 载 的 是 最 新 版 本 的 DataX3.0 。 下 载 地 址 为 : http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
1、 下载后解压
tar -zxvf /kkb/soft/datax.tar.gz -C /kkb/install/
2、运行自检脚本
cd /kkb/install/datax
./bin/datax.py ./job/job.json
出现以下界面说明DataX安装成功
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2eAXnUMK-1617239312714)(datax安装部署.assets/datax安装成功.png)]
三 基本使用
3.1 从stream读取数据并打印到控制台
1、查看官方模板
cd /kkb/install/datax
python ./bin/datax.py -r streamreader -w streamwriter
{
"job": {
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"column": [],
"sliceRecordCount": ""
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"encoding": "",
"print": true
}
}
}
],
"setting": {
"speed": {
"channel": ""
}
}
}
}
2、新建json文件
vim stream2stream.json
{
"job": {
"content": [
{