DataX的简单应用实验
实验平台及相关准备
操作系统:Linux
JDK版本:1.8
Python版本:2.7
实验前准备了一个csv文件。
其部分内容如下:
实验内容
ps:实验中所有json配置文件均放在job目录下
1.官方实例测试
切换到DataX的bin目录下执行命令:
// 前提是python已经安装成功且配置好了
python datax.py ../job/job.json
结果如下:
表明实例执行成功!
2.通过DataX将csv文件从本地linux文件系统同步到HDFS。
对于dataX的相关的json配置文件,如果不清楚其格式,可以执行
python datax.py -r [reader] -w [writer]
就会自动生成配置文件模板。
对于其配置参数,可以到dataX官网.下 相应的reader或writer的doc里查看其详细信息。
txt2hdfs.json配置文件:
{
"job": {
"content": [
{
"reader": {
"name": "txtfilereader",
"parameter": {
"column": [
{
"name": "Element Name",
"type": "String",
"index": 0
},
{
"name": "Windows NT",
"type": "String",
"index": 1
},
{
"name": "Windows",
"type": "String",
"index": 2
},
{
"name": "Windows CE",
"type": "String",
"index": 3
},
{
"name": "Win32s",
"type": "String",
"index": 4
},
{
"name": "Component",
"type": "String",
"index": 5
},
{
"name": "Component Version",
"type": "String",
"index": 6
},
{
"name": "Header File",
"type": "String",
"index": 7
},
{
"name": "Import Library",
"type": "String",
"index": 8
},
{
"name": "Unicode",
"type": "String",
"index": 9
},
{
"name": "Element Type",
"type": "String",
"index": 10
}
],
"encoding": "UTF-8",
"path": ["/home/hadoop/Desktop/WIN32API.CSV"],
"csvReaderConfig":
{
"safetySwitch": false,
"skipEmptyRecords": false,
"useTextQualifier": false
}
}
},
"writer": {
"name": "hdfswriter",
"parameter": {
"column": [
{
"name": "Element Name",
"type": "String",
"index": 0
},
{
"name": "Windows NT",
"type": "String",
<