1. 修改配置
采集的配置文件添加如下,我这里用的HDFSWritter。
"defaultFS": "hdfs://${nameservice命名空间}",
"hadoopConfig":{
"dfs.nameservices": "${nameservice命名空间}",
"dfs.ha.namenodes.${nameservice命名空间}": "${namenode1的逻辑名称},${namenode2的逻辑名称}",
"dfs.namenode.rpc-address.${nameservice命名空间}.${namenode1的逻辑名称}": "${namenode1的主机名称}:8020",
"dfs.namenode.rpc-address.${nameservice命名空间}.${namenode2的逻辑名称}": "${namenode2的主机名称}:8020",
"dfs.client.failover.proxy.provider.${nameservice命名空间}": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
},
注意:nameservice命名空间、namenode1的逻辑名称、namenode2的逻辑名称 必须与 hdfs-site.xml文件的配置一样。
2. 添加依赖
添加依赖,直接执行会报Hadoop很多类找不到,所以要将CDH上 hadoop的一些依赖拷贝到datax的lib目录下,可以拷贝也可以软连接。
hadoop-hdfs-2.6.0-cdh5.5.0.jar
hadoop-auth-2.6.0-c