win7下借助kettle7.0在命令行界面将数据传输到hdfs

 为什么写这系列博客的原因就是真的遇到的坑太多了,所以需要写下来,防止以后忘记,话不多说吗,直接进入主题

一、环境

  • kettle7.0,kettle是开源的etl工具(kettle7.0需要java8),其优势在于可以使用图形化界面开发,开发完成后可以部署在linux或者windows平台
  • window7.0
  • 大数据平台采用的是CDH,其余版本的haoop应该也是类似的

二、修改配置文件

  • 将集群中的haoop配置文件拷贝到kettle的安装文件夹下,例如D:\kettle\pdi-ce-7.0.0.0-25\data-integration(安装路径)\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh58(haddop版本),需要拷贝的配置文件如下: 

 

  • 因为hdfs存储文件有所有者和组的概念,提交MR作业的时候会先从环境变量读取HADOOP_USER_NAME参数来识别文件的所有者,如果没有,则读取系统用户,一般操作hadoop集群都会新建用户,所以建议设置环境变量HADOOP_USER_NAME=hdfs(hadoop专用用户名,根据自己定义的名字修改),环境变量如下:

 因为涉及到跨平台提交MR作业,需要在mapred-site.xml文件里加上如下参数(注意:不是所有的hadoop版本都有,好像是hadoop2.×之后,低版本的得自己改一下源码,主要是因为不同系统环境变量的表示方法不一样,windows是%AA%,Linux是$AA),如果不加,会报错,具体错误我没记录,和appMaster有关,改动的地方如下:

<property>  
  <name>mapreduce.app-submission.cross-platform</name>  
  <value&g
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值